Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò"

Transcript

1 Kernel Methods Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò 14/05/2018

2 Kernel Methods Definizione di Kernel Costruzione di Kernel Support Vector Machines Problema primale e duale Kernel representation of SVM

3 Kernel Methods Sono metodi memory based (usano direttamente il training set) Veloci a fare training Lenti per fare predizione Richiedono una metrica sullo spazio degli input Quando vogliamo catturare degli effetti nonlineari Possiamo utilizzare degli spazi a dimensioni più grandi (es. base functions φ i ( )) Dobbiamo scegliere degli spazi appropriati al problema analizzato Il loro uso rende i metodi più costosi computazionalmente Abbiamo un numero maggiore di feature Dobbiamo operativamente calcolare le feature

4 Esempio Supponiamo di avere un vettore di input x composto da M elementi e di voler calcolare la sua espansione a feature quadratiche Devo considerare tutte le feature, tutte le feature al quadrato e ogni combinazione a due a due delle variabili originali Mi richiede sia di calcolare le nuove feature composte da 5M+M2 elementi 2 Devo apprendere in uno spazio in cui ho 5M+M2 2 dimensioni

5 Con l utilizzo dei kernel non dobbiamo calcolare esplicitamente le feature utilizzate Una funzione di kernel è data da una funzione simmetrica esprimibile come prodotto di funzioni di base, ovvero: Può essere interpretata come una funzione di similarità tra i due vettori dello spazio degli input

6 Kernel classici Kernel lineare Kernel stazionario Kernel omogeneo Kernel Gaussiano

7 Kernel Trick Idea: ogni volta che la funzione di base appare nella formulazione del modello come un prodotto scalare possiamo sostituirla con il kernel Un kernel per essere valido deve essere esprimibile come prodotto scalare di funzioni di base Molti dei metodi di regressione e classificazione possono essere riformulati in termini di kernel

8 Esempio: Ridge regression Consideriamo la loss della regressione regolarizzata con la norma 2 del vettore dei parametri Mettendo il gradiente a zero abbiamo:

9 Gram Matrix Definiamo la Gram matrix di N vettori come: ovvero ogni elemento è É una matrice N N simmetrica (essendo il kernel simmetrico)

10 Loss in termini di Gram Matrix Esplicitando i termini della loss abbiamo E sostituendo la gram matrix Derivando e ponendo la derivata a zero abbiamo Ovvero abbiamo che la soluzione è una combinazione degli input e dipende solo dalla gram matrix

11 Quindi la predizione diventa La predizione è una combinazione lineare degli output del training set Differenze della formulazione a kernel: Inverto una matrice N N Non lavoro mai esplicitamente con il vettore delle feature φ(x)

12 Costruzione dei kernel Possiamo riformulare i nostri problemi con dei kernel a patto che essi siano validi Due metodi esistono per la costruzione di kernel: Costruzione dalle feature Costruzione diretta Composizione di kernel validi

13 Kernel costruiti con basi di feature k(x, x ) con x =

14 Costruzione diretta Definiamo il kernel da un prodotto scalare in qualche spazio Esempio: kernel in 2D Per calcolare il prodotto delle feature necessito 9 moltiplicazioni, per calcolare il valore del kernel solo 3 (2 moltiplicazioni ed un elevamento a potenza)

15 Testare se una funzione è un kernel Esiste un modo per capire se una funzione può essere un kernel valido, senza scrivere esplicitamente la base φ(x) La Gram matrix deve essere semidefinita positiva ( x 0, x T K x 0) Teorema (Mercer s theorem) Ogni funzione continua, simmetrica e semi definita positiva k(x, y) può essere espressa come un prodotto scalare in uno spazio (potenzialmente con molte dimensioni)

16 Regole di composizione dei Kernel

17 Kernel su oggetti A differenza dei vettori di feature, i kernel possono essere applicati anche elementi non numerici Grafi Oggetti Necessitiamo solo una misura di similarità tra due oggetti considerati Esempio: kernel sugli insiemi

18 Esempio: kernel regression

19 Esempi di metodi con kernel: GP Generalizzazione delle gaussiane multivariate nel caso infinito dimensionale Possono essere usati per: Regressione Classificazione Permettono di stimare sia il valore medio di una funzione, sia l incertezza corrispondente al punto predetto

20 Support Vector Machines Proposte negli anni 90 per problemi di classificazione, rimangono uno dei metodi migliori per questo task Sono state estese anche per risolvere problemi di regressione, clustering e anomaly detection Sono un argomento complesso in quanto richiedono la comprensione di Teoria dell apprendimento Teoria dei kernel Ottimizzazione vincolata Proveremo a descriverne i meccanismi principali per poter operare con esse

21 Definizione di SVM Una SVM è univocamete definita da: Un sottoinsieme S del training set (x, t) detto insieme dei support vector Un vettore di pesi a, uno per ogni support vector Una funzione di similarità tra i vettori di input k(x, x ) La predizione viene effettuata tramite la funzione: Ricorda molto la funzione decisionale del perceptron

22 Oltre il perceptron Idea: massimizzo il margine tra superfice di separazione e i dati

23 Massimizzare il Margine Distanza del più vicino punto del dataset al decision boundary Voglio il parametro che massimizzi questa grandezza

24 Ottimizzazione Purtroppo la cifra da massimizzare risulta essere un problema troppo complesso da risolvere Un problema equivalente risulta essere:

25 Funzione Lagrangiana Dato un problema di ottimizzazione vincolata Posso trasformarlo nelle seguente: Lagrangian function Condizioni KKT

26 Lagrangiana delle SVM Mettendo il gradiente a zero abbiamo Il problema diventa:

27 Primale vs. Duale Entrambi i problemi sono di ottimizzazione quadratica Problema primale Può essere risolto con complessità M 3 Se lo spazio dell è feature abbastanza piccolo posso risolverlo Problema duale Riporta il problema rispetto ad un kernel generico Può lavorare su spazi di feature potenzialmente di dimensioni infinite

28 Soluzione Classifico i punti in base a: Dove ho che molti dei coefficienti α n sono nulli e Posso sommare solo su un sottoinsieme S di N S support vectors, che solitamente è molto minore dei punti del training set

29 SVM con kernel gaussiani

30 Se le classi non sono separabili Posso riformulare il problema nel caso in cui non esista il margine, modificando i vincoli esistenti per rilassare il problema

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S

Dettagli

Apprendimento statistico (Statistical Learning)

Apprendimento statistico (Statistical Learning) Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x

Dettagli

Apprendimento statistico (Statistical Learning)

Apprendimento statistico (Statistical Learning) Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x

Dettagli

Algoritmi di classificazione supervisionati

Algoritmi di classificazione supervisionati Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale

Dettagli

5.6 Metodo di penalità e metodo basato sulle funzioni lagrangiane aumentate. min f(x) s.v. c i (x) 0 i I c i (x) = 0 i E (1) x R n

5.6 Metodo di penalità e metodo basato sulle funzioni lagrangiane aumentate. min f(x) s.v. c i (x) 0 i I c i (x) = 0 i E (1) x R n 5.6 Metodo di penalità e metodo basato sulle funzioni lagrangiane aumentate Consideriamo il generico problema di PNL min f(x) s.v. c i (x) 0 i I c i (x) = 0 i E (1) x R n dove f e le c i sono di classe

Dettagli

Gaussian processes (GP)

Gaussian processes (GP) Gaussian processes (GP) Corso di Modelli di Computazione Affettiva Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano [email protected] [email protected] http://boccignone.di.unimi.it/compaff017.html

Dettagli

Condizioni di Karush-Kuhn-Tucker e Programmazione Lineare

Condizioni di Karush-Kuhn-Tucker e Programmazione Lineare Condizioni di Karush-Kuhn-Tucker e Programmazione Lineare A. Agnetis 1 Richiami su condizioni di Karush-Kuhn-Tucker e convessità Si consideri il problema di ottimizzazione vincolata: min f(x) (1) x X R

Dettagli

Polinomio di Taylor del secondo ordine per funzioni di due variabili

Polinomio di Taylor del secondo ordine per funzioni di due variabili Esercitazioni del 15 aprile 2013 Polinomio di Taylor del secondo ordine per funzioni di due variabili Sia f : A R 2 R una funzione di classe C 2. Fissato un p unto (x 0, y 0 A consideriamo il seguente

Dettagli

Le condizioni di Karush-Kuhn-Tucker

Le condizioni di Karush-Kuhn-Tucker Capitolo 9 Le condizioni di Karush-Kuhn-Tucker 9. Introduzione In questo capitolo deriveremo le condizioni necessarie di Karush-Kuhn-Tucker (KKT) per problemi vincolati in cui S è descritto da vincoli

Dettagli

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ. ESERCIZI SVOLTI DI ALGEBRA LINEARE (Sono svolti alcune degli esercizi proposti nei fogli di esercizi su vettori linearmente dipendenti e vettori linearmente indipendenti e su sistemi lineari ) I. Foglio

Dettagli

Outline. 1 Teorema dei moltiplicatori di Lagrange. 2 Uso pratico dei moltiplicatori di Lagrange. 3 Derivazione alternativa dei moltiplicatori

Outline. 1 Teorema dei moltiplicatori di Lagrange. 2 Uso pratico dei moltiplicatori di Lagrange. 3 Derivazione alternativa dei moltiplicatori Outline Minimi Vincolati (Metodi Matematici e Calcolo per Ingegneria) Enrico Bertolazzi DIMS Università di Trento anno accademico 2006/2007 1 2 3 Derivazione alternativa dei moltiplicatori 4 Minimi Vincolati

Dettagli

Note sulle funzioni convesse/concave

Note sulle funzioni convesse/concave Note sulle funzioni convesse/concave 4th December 2008 1 Definizioni e proprietà delle funzioni convesse/concave. Definizione 1.1 Un insieme A IR n è detto convesso se per ogni x 1 e x 2 punti di A, il

Dettagli

Richiami di algebra delle matrici a valori reali

Richiami di algebra delle matrici a valori reali Richiami di algebra delle matrici a valori reali Vettore v n = v 1 v 2. v n Vettore trasposto v n = (v 1, v 2,..., v n ) v n = (v 1, v 2,..., v n ) A. Pollice - Statistica Multivariata Vettore nullo o

Dettagli

Esercizi su ottimizzazione vincolata

Esercizi su ottimizzazione vincolata Esercizi su ottimizzazione vincolata 1. Rispondere alle seguenti domande (a) Quando un vincolo di disuguaglianza è detto attivo? (b) Cosa è l insieme delle soluzioni ammissibili? Gli algoritmi di ricerca

Dettagli

0.1 Coordinate in uno spazio vettoriale

0.1 Coordinate in uno spazio vettoriale .1. COORDINATE IN UNO SPAZIO VETTORIALE 1.1 Coordinate in uno spazio vettoriale Sia V uno spazio vettoriale di dimensione finita n costruito sul campo K. D ora in poi, ogni volta che sia fissata una base

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl [email protected] http://www.onairweb.com/corsopr

Dettagli

Si consideri il seguente tableau ottimo di un problema di programmazione lineare

Si consideri il seguente tableau ottimo di un problema di programmazione lineare ESERCIZIO 1 Si consideri il seguente tableau ottimo di un problema di programmazione lineare -25/3 0 4/3 19/6 9/2 0 0 0 7/6 1 0 1-1/2-3/2 1 0 0 3/2 11/3 1-2/3-1/3 0 0 0 0 2/3 2/3 0 1/3 1/6-1/2 0 1 0 7/6

Dettagli

Corso di Geometria BIAR, BSIR Esercizi 3: soluzioni

Corso di Geometria BIAR, BSIR Esercizi 3: soluzioni Corso di Geometria - BIAR, BSIR Esercizi : soluzioni Rango e teorema di Rouché-Capelli Esercizio. Calcolare il rango di ciascuna delle seguenti matrici: ( ) ( ) ( ) A =, A =, A =, A 4 = ( ). a a a Soluzione.

Dettagli

Valutazione e Selezione del Modello

Valutazione e Selezione del Modello Valutazione e Selezione del Modello Fondamenti Matematici della Teoria dell Apprendimento Statistico Laura Lo Gerfo Dipartimento di Informatica e Scienze dell Informazione 18 maggio 2007 Laura Lo Gerfo

Dettagli

Sistemi lineari - Parte Seconda - Esercizi

Sistemi lineari - Parte Seconda - Esercizi Sistemi lineari - Parte Seconda - Esercizi Terminologia Operazioni elementari sulle righe. Equivalenza per righe. Riduzione a scala per righe. Rango di una matrice. Forma canonica per righe. Eliminazione

Dettagli

Appunti sui Codici di Reed Muller. Giovanni Barbarino

Appunti sui Codici di Reed Muller. Giovanni Barbarino Appunti sui Codici di Reed Muller Giovanni Barbarino Capitolo 1 Codici di Reed-Muller I codici di Reed-Muller sono codici lineari su F q legati alle valutazioni dei polinomi sullo spazio affine. Per semplicità

Dettagli

a + 2b + c 3d = 0, a + c d = 0 c d

a + 2b + c 3d = 0, a + c d = 0 c d SPAZI VETTORIALI 1. Esercizi Esercizio 1. Stabilire quali dei seguenti sottoinsiemi sono sottospazi: V 1 = {(x, y, z) R 3 /x = y = z} V = {(x, y, z) R 3 /x = 4} V 3 = {(x, y, z) R 3 /z = x } V 4 = {(x,

Dettagli

Minimi quadrati vincolati e test F

Minimi quadrati vincolati e test F Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

1 Fit di dati sperimentali: il χ 2. Il metodo dei minimi quadrati.

1 Fit di dati sperimentali: il χ 2. Il metodo dei minimi quadrati. 1 Fit di dati sperimentali: il χ 2. Il metodo dei minimi quadrati. Per comprendere dei fenomeni fisici, non basta raccogliere buoni dati sperimentali, occorre anche interpretarli. Molto spesso lo scopo

Dettagli

Calcolo Numerico Laurea di base in Ingegneria Elettronica e Ingegneria delle Comunicazioni e Clinica. Prof.ssa Laura Pezza (A.A.

Calcolo Numerico Laurea di base in Ingegneria Elettronica e Ingegneria delle Comunicazioni e Clinica. Prof.ssa Laura Pezza (A.A. Calcolo Numerico Laurea di base in Ingegneria Elettronica e Ingegneria delle Comunicazioni e Clinica Prof.ssa Laura Pezza (A.A. 2018-2019) VIII Lezione del 14.03.2019 http://www.dmmm.uniroma1.it/ laura.pezza

Dettagli

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo. Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente

Dettagli