Apprendimento statistico (Statistical Learning)
|
|
|
- Eduardo Fadda
- 7 anni fa
- Visualizzazioni
Transcript
1 Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x n,y n )} può essere visto come un insieme di campioni estratti i.i.d. da XxY, dove X e Y sono due insiemi di v.a. p(x) x p(y x) y p(x,y)=p(y x) p(x) Fissata, ma ignota
2 Il learning come approssimazione Lo scopo principale del learning è quindi quello di utilizzare S per costruire una funzione f S che, applicata ad un valore di x non visto precedentemente, predice il valore di y corrispondente: y pred =f S (x new ) Il learning come approssimazione Per valutare la qualità della funzione trovata, si utilizza una funzione di costo (loss function) L(f S (x),y*). Esempi: [f S (x)-y*] 2 f S (x)-y*
3 Valutazione del costo Scegliendo una certa funzione f, il rischio atteso è dato da: R(f) = L(f(x),y)dp(x, y) L obiettivo è quello di minimizzare R(f), ma p(x,y) non è conosciuta. L unica possibilità è fare una valutazione sui dati a disposizione (training set): RS (f) = L(f(xi),yi) i detto rischio empirico. Che differenza c è tra rischio empirico e rischio atteso? Cause di errore Lo scopo finale dell algoritmo di apprendimento è quello di individuare la funzione f 0 che minimizza il rischio atteso. La scelta, però, sarà fatta all interno dell insieme Λ di funzioni f n che l algoritmo di apprendimento è capace di implementare. Le cause di errore sono quindi due: Errore di Approssimazione è la conseguenza della limitatezza dell insieme Λ di funzioni implementabili dall algoritmo di apprendimento. Errore di Stima è l errore dovuto alla procedura di apprendimento che, scegliendo la funzione f n,n sulla base del rischio empirico, non individua la funzione ottimale all interno di Λ. Insieme, questi due errori formano l errore di generalizzazione.
4 Quanti errori!!! Una limitazione del costo atteso E stata dimostrato (Vapnik) che sussiste la seguente disuguaglianza : R(f) R (f) + S h(log(2 S /h) + ) log( η/4) S con probabilità -η. h è la dimensione di Vapnik-Chervonenkis (VC dimension) della funzione f e stima la capacità della funzione f, ovvero l abilità ad apprendere senza errore un qualunque training set S.
5 Effetti della capacità Minimizzazione del Rischio strutturale Per controllare il rischio atteso occorre allora trovare una f che minimizzi il termine R S (f) + h(log(2 S /h) + ) log( η/4) S dove il primo addendo è il rischio empirico e il secondo addendo è detto termine di confidenza. Si noti che l intera espressione è indipendente dalla p(x,y) ignota.
6 Minimizzazione del Rischio Strutturale Per un dato insieme di campioni di training è quindi possibile controllare il rischio atteso agendo contemporaneamente sul rischio empirico R s (f) e sulla dimensione VC h. Si noti che il termine di confidenza dipende dalla classe di funzioni scelta, mentre sia il rischio atteso che il rischio empirico dipendono dalla particolare forma della funzione scelta dall algoritmo di apprendimento (p.es. i valori dei pesi di un MLP). Minimizzazione del Rischio Strutturale La scelta migliore dei parametri della f per controllare R s (f) è realizzata tramite la sperimentazione sui dati. Per controllare h (cioè la complessità del classificatore) occorre trovare, nella classe delle funzioni implementabili dall algoritmo di apprendimento, il sottoinsieme per cui il termine di maggiorazione del rischio atteso.
7 Minimizzazione del Rischio Strutturale Ai fini della minimizzazione, si introduce una struttura che ripartisce l intera classe di funzioni in sottoinsiemi F F 2 F n ognuno dei quali contiene le funzioni di dimensione VC h h 2 h n. Di ogni insieme si calcola il termine di confidenza. La minimizzazione del rischio strutturale consiste quindi nella ricerca del sottoinsieme di funzioni F min che minimizza il termine di maggiorazione del rischio atteso. A questo scopo si addestra una serie di classificatori, uno per ogni sottoinsieme, con l obiettivo di minimizzare il rischio empirico. Il sottoinsieme F min è quello per cui risulta minima la somma di rischio empirico e di termine di confidenza. Minimizzazione del Rischio Strutturale R(f) R s (f)
8 Minimizzazione del Rischio Strutturale Ci sono due approcci costruttivi per minimizzare il termine (f) R S + h(log(2 S /h) + ) log( η/4) S. Mantenere fisso il termine di confidenza (scegliendo una struttura appropriata del classificatore) e minimizzare il rischio empirico. 2. Mantenere fisso il rischio empirico (p.es. uguale a zero) e minimizzare il termine di confidenza. Classificatori a supporto vettoriale Consideriamo un problema di classificazione a due classi per cui abbiamo un training set S={x i,y i }. Le classi sono etichettate con ±. Supponiamo che i campioni siano linearmente separabili. Ciò significa che esiste un iperpiano w x+b=0 tale che: w x i +b > 0 se y i =+ w x i +b < 0 se y i = (w x i +b) y i > 0
9 Classificatori a supporto vettoriale Consideriamo il punto x + (x - ) che ha etichetta + () e si trova a minima distanza dall iperpiano; chiamiamo d + (d - ) tale distanza. Definiamo margine dell iperpiano la somma d + + d -. Se consideriamo uno scaling di w e b per cui, in corrispondenza di tali punti, si abbia w x + +b=+ e w x - +b=, allora d + =d - = / w. Per cui il margine diventa 2/ w. Classificatori a supporto vettoriale Il classificatore così realizzato si definisce classificatore a supporto vettoriale o Support Vector Machine (SVM). Si è dimostrato che la capacità di generalizzazione di questo classificatore cresce al crescere del margine. Di conseguenza, la capacità h diminuisce al crescere del margine. La capacità di generalizzazione massima è quindi data dall iperpiano a margine massimo, detto optimal separating hyperplane (OSH).
10 L iperpiano a margine massimo L iperpiano a margine massimo Grazie alle condizioni imposte su w e b, l OSH sarà tale che (w x i +b) y i > 0. I punti più vicini soddisferanno l equazione (w x i +b) y i = 0 che individua due iperpiani H e H 2 paralleli all OSH, tra i quali non cadrà alcun punto di S. I punti che giacciono su H e H 2 sono detti vettori di supporto (support vectors). Cambiando i vettori di supporto, cambia anche l OSH.
11 L iperpiano a margine massimo Costruzione dell iperpiano ottimo Per costruire l iperpiano a margine massimo bisogna risolvere il problema: soggetto a: Ciò porta alla minimizzazione del Lagrangiano:
12 Costruzione dell iperpiano ottimo Il problema risulta essere un problema convesso di programmazione quadratica per il quale la soluzione è: Nell espressione che fornisce w solo alcuni moltiplicatori di Lagrange α i saranno non nulli. Di conseguenza, solo i corrispondenti punti del training set entreranno come vettori di supporto nella definizione dell iperpiano. Costruzione dell iperpiano ottimo Risolto il problema, la funzione discriminante sarà data da:
13 Casi non linearmente separabili Per come è stato definito, il classificatore a supporto vettoriale non può gestire casi in cui le classi non siano linearmente separabili. Per risolvere questo problema ci sono due approcci: rilassare i vincoli di corretta classificazione, tollerando un certo numero di errori considerare altre superfici oltre l iperpiano Generalizzazione dell iperpiano ottimo Nella fase di ottimizzazione si rilassa il vincolo di esatta classificazione dei campioni del training set (soft margins), introducendo delle variabili slack ξ i. I vincoli così diventano:
14 Generalizzazione dell iperpiano ottimo A seconda del valore assunto dalla corrispondente variabile slack, i punti del training set saranno: disposti al di là degli iperpiani H e H 2 e correttamente classificati (ξ i =0) posti tra gli iperpiani H e H 2 e correttamente classificati (0<ξ i <) erroneamente classificati (ξ i >) Generalizzazione dell iperpiano ottimo
15 Generalizzazione dell iperpiano ottimo Con l introduzione delle variabili slack, il Lagrangiano da minimizzare diventa: Il parametro C permette di gestire il compromesso tra l ampiezza del margine (C basso) e il numero di errori tollerati in fase di training (per C= si torna al caso di iperpiano perfettamente separabile). Generalizzazione dell iperpiano ottimo La soluzione ottenuta per l iperpiano è la stessa del caso originale: L unica differenza è che ora gli α i rispettano la condizione 0 α i C.
16 SRM Casi non linearmente separabili Nel caso in cui non ci sia soluzione (insiemi non linearmente separabili), si introduce un mapping Φ(x) ad uno spazio di dimensione molto più grande in cui gli insiemi corrispondenti siano linearmente separabili. Quindi, invece di aumentare la complessità del classificatore (che resta un iperpiano) si aumenta la dimensione dello spazio delle features. In dipendenza della dimensione dello spazio in cui è formulato il problema originale, il mapping può portare anche a dimensioni molto elevate (~0 6 ) dello spazio trasformato. Casi non linearmente separabili Problema originale a d dimensioni mapping tramite Φ(.) Problema a N>>d dimensioni mapping tramite Φ(.) Ricerca dell OSH
17 Casi non linearmente separabili In questo caso, la funzione da minimizzare diventa: l 2 LP = w αi ( yi ( w Φ( xi ) + b) ) 2 i= che ha come soluzione: w = αi yiφ( xi ) i per cui la funzione discriminante è: f ( x) = αi yiφ( xi ) Φ( x) + b i Problema XOR
18 Casi non linearmente separabili Le funzioni kernel Data la dimensione dello spazio trasformato le funzioni di mapping Φ(.) potrebbero essere molto complesse da valutare. In effetti, tutto quello che serve ai fini dell addestramento e della classificazione è la forma funzionale del prodotto scalare Φ(x) Φ(y). Fortunatamente, per il teorema di Mercer, è assicurata l esistenza di funzioni kernel K(x,y) tali che K(x,y)=Φ(x) Φ(y). Di conseguenza, anche la funzione discriminante si modifica in: f ( x) = α y K( x, x) b i i i i +
19 Le funzioni kernel Problema originale a d dimensioni mapping tramite Φ(.) K(x,y) Problema a N>>d dimensioni L impiego delle funzioni kernel di fatto nasconde il mapping nello spazio N- dimensionale mapping tramite Φ(.) Ricerca dell OSH Esempi di kernel Kernel polinomiali Kernel gaussiani (RBF) Kernel MLP
20 Definizione delle caratteristiche di una SVM Per impiegare una SVM è allora necessario definire:. tipo di kernel da impiegare 2. parametri del particolare kernel 3. valore di C Non esistono criteri teorici per queste scelte; tipicamente va fatta una verifica su un insieme di validazione. test error C
21 Esempio 0 class P class N SVM lineare 0 K(x,y)=(x y) SV su 240 campioni di training
22 SVM polinomiale K(x,y)=(x y+) SV su 240 campioni di training SVM RBF K(x,y)= exp(-0.5 x-y 2 ) SV su 240 campioni di training
23 Classificazione multiclasse Per la classificazione a più classi si opera una decomposizione del problema in più problemi a due classi. Schemi più utilizzati: contro C (C)/2 SVM contro tutti C SVM ECOC ECOC classe SVM
Apprendimento statistico (Statistical Learning)
Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x
Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò
Kernel Methods Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 14/05/2018 Kernel Methods Definizione di Kernel Costruzione di Kernel Support Vector Machines Problema primale e duale
Algoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
Approccio statistico alla classificazione
Approccio statistico alla classificazione Approccio parametrico e non parametrico Finestra di Parzen Classificatori K-NN 1-NN Limitazioni dell approccio bayesiano Con l approccio bayesiano, sarebbe possibile
Apprendimento Automatico
Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S
Tecniche di riconoscimento statistico
Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl [email protected] http://www.onairweb.com/corsopr
Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
Regressione Lineare e Regressione Logistica
Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: [email protected] @famo2spaghi http://stegua.github.com 1 Introduzione
LEZIONE 12. v = α 1 v α n v n =
LEZIONE 12 12.1. Combinazioni lineari. Definizione 12.1.1. Sia V uno spazio vettoriale su k = R, C e v 1,..., v n V vettori fissati. Un vettore v V si dice combinazione lineare di v 1,..., v n se esistono
Riconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti
SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14
SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la
EQUAZIONI DIFFERENZIALI Esercizi con soluzione
EQUAZIONI DIFFERENZIALI Esercizi con soluzione 1. Calcolare l integrale generale delle seguenti equazioni differenziali lineari del primo ordine: (a) y 2y = 1 (b) y + y = e x (c) y 2y = x 2 + x (d) 3y
Metodi e Modelli per l Ottimizzazione Combinatoria Ripasso sulla Programmazione Lineare e il metodo del Simplesso (parte I)
Metodi e Modelli per l Ottimizzazione Combinatoria Ripasso sulla Programmazione Lineare e il metodo del Simplesso (parte I) Luigi De Giovanni Giacomo Zambelli 1 Problemi di programmazione lineare Un problema
Introduzione al Test in Itinere
Introduzione al Test in Itinere Roberto Basili Università di Roma, Tor Vergata Argomenti oggetto di esame Rappresentazioni vettoriali per la classificazione Clustering Algoritmi di apprendimento automatico
Massimi e minimi vincolati
Massimi e minimi vincolati Vedremo tra breve un metodo per studiare il problema di trovare il minimo e il massimo di una funzione su di un sottoinsieme dello spazio ambiente che non sia un aperto. Abbiamo
Introduzione al Metodo agli Elementi Finiti (FEM) (x, y) Γ Tale formulazione viene detta Formulazione forte del problema.
Introduzione al Metodo agli Elementi Finiti (FEM) Consideriamo come problema test l equazione di Poisson 2 u x 2 + 2 u = f(x, y) u = f y2 definita su un dominio Ω R 2 avente come frontiera la curva Γ,
3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI
3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI ESISTENZA DI UN PUNTO DI OTTIMO VINCOLATO Il problema di ottimizzazione vincolata introdotto nel paragrafo precedente può essere formulato nel modo seguente:
Geometria della programmazione lineare
Geometria della programmazione lineare poliedri punti estremi, vertici, soluzioni di base esistenza di punti estremi rif. Fi 3.1; BT 2.1, 2.2, 2.5 Iperpiani, semispazi Definizione Sia a un vettore non
OTTIMIZZAZIONE LINEARE MULTICRITERIO
OTTIMIZZAZIONE LINEARE MULTICRITERIO NOTAZIONE Siano x ed y vettori di R n indicati estesamente con x x x x 1 Μ i Μ n, y y1 Μ yi Μ y n e si ponga N = {1,2,, n}. Scriveremo allora: x y ( x è diverso da
Corso di Intelligenza Artificiale A.A. 2016/2017
Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana
Richiami di algebra delle matrici a valori reali
Richiami di algebra delle matrici a valori reali Vettore v n = v 1 v 2. v n Vettore trasposto v n = (v 1, v 2,..., v n ) v n = (v 1, v 2,..., v n ) A. Pollice - Statistica Multivariata Vettore nullo o
Università di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Università di Pavia Econometria Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Università di Pavia Introduzione L econometria si interessa all analisi dei dati economici. I dati economici
PROGRAMMAZIONE LINEARE E DUALITA'
PROGRAMMAZIONE LINEARE E DUALITA' 1) Dati i punti di R 2 (1, 2), (1, 4), (2, 3), (3, 5), (4, 1), (4, 2), (5, 5), (6, 2), (6, 5). Determinare graficamente: A - L'involucro convesso di tali punti. B - Quali
Analisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
Macchine parallele M 1 M 2 M 3 J 1 J 2 LAVORI J 3 J 4
Macchine parallele M 1 J 1 J 2 LAVORI M 2 J 3 J 4 M 3 Macchine parallele Scheduling su macchine parallele scorrelate R C max Descrizione del problema n lavori devono essere processati da m macchine diverse
5.6 Metodo di penalità e metodo basato sulle funzioni lagrangiane aumentate. min f(x) s.v. c i (x) 0 i I c i (x) = 0 i E (1) x R n
5.6 Metodo di penalità e metodo basato sulle funzioni lagrangiane aumentate Consideriamo il generico problema di PNL min f(x) s.v. c i (x) 0 i I c i (x) = 0 i E (1) x R n dove f e le c i sono di classe
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Stimatore media campionaria Il tempo in minuti necessario a un certo impiegato dell anagrafe
Appendice B ANALISI FUNZIONALE. 1 Spazi di Banach
Appendice B ANALISI FUNZIONALE In questo capitolo si introducono gli spazi di Banach e di Hilbert, gli operatori lineari e loro spettro. Inoltre si discutono gli operatori compatti su uno spazio di Hilbert.
Programmazione Non Lineare
Capitolo 1 Programmazione Non Lineare 1.1 Introduzione Un problema di ottimizzazione viene definito come la minimizzazione o la massimizzazione di una funzione a valori reali su un insieme specificato.
Stima della qualità dei classificatori per l analisi dei dati biomolecolari
Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: [email protected] Rischio atteso e rischio empirico L` apprendimento di una funzione non nota
