Apprendimento Automatico (Feature Selection e Kernel Learning)

Documenti analoghi
Riconoscimento automatico di oggetti (Pattern Recognition)

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.

Reti Neurali (Parte I)

Principal. component analysis. Dai volti agli spettri di galassie

Esercizi su Autovalori e Autovettori

Progettazione di un Sistema di Machine Learning

Apprendimento Automatico (Lezione 1)

Feature Selection per la Classificazione

Introduzione alle Reti Neurali

Reti Neurali in Generale

Elementi di Algebra Lineare. Spazio Vettoriale (lineare)

Apprendimento Automatico (Intro)

DATA MINING IN TIME SERIES

Apprendimento Automatico: Teoria e Applicazioni

Intelligenza Artificiale. Soft Computing: Reti Neurali Generalità

Analisi della correlazione canonica

Riduzione Dimensionalità

Apprendimento automatico e Reti Neurali. Francesco Sambo tel

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Progettazione di un Sistema di Machine Learning

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Algoritmo di Branch & Bound

Corso di Intelligenza Artificiale A.A. 2016/2017

Analisi delle componenti principali

Lezione introduttiva su reti neurali e SVM Veronica Piccialli. Corso di Ottimizzazione a.a (seconda parte)

Applicazioni della SVD

Modelli per variabili dipendenti qualitative

Analisi della varianza

Statistica multivariata 27/09/2016. D.Rodi, 2016

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Luigi Piroddi

Spazi euclidei, endomorfismi simmetrici, forme quadratiche. R. Notari

Gaussian processes (GP)

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

DoE Seminary APPLICAZIONE DoE AVL CAMEO. Daniele Bistolfi

Tecniche di riconoscimento statistico

Lezione 8. Data Mining

Algebra lineare con R

Algoritmi di Classificazione e Reti Neurali

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

FONDAMENTI DI ALGEBRA LINEARE E GEOMETRIA

Intelligenza Artificiale

Algebra Lineare Autovalori

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

LICEO DELLE SCIENZE APPLICATE

Carte di controllo CUSUM. Le carte a somme cumulate risultano utili quando occorre individuare scostamenti dal valore centrale di piccola entità.

Minimizzazione di Reti Logiche Combinatorie Multi-livello. livello

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Differenze tra metodi di estrazione

La matrice delle correlazioni è la seguente:

Laboratorio software. A.A C. Brandolese

Soluzione. (a) L insieme F 1 e linearmente indipendente; gli insiemi F 2 ed F 3 sono linearmente

Regressione Lineare e Regressione Logistica

0.1 Condizione sufficiente di diagonalizzabilità

Transcript:

Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html

Servono tutti gli attributi? Gli attributi (o variabili) dovrebbero essere utilizzati solo se veramente utili (rilevanti) per la classificazione/predizione Meno attributi implicano modelli (p.e. alberi di decisione) di classificazione-predizione più compatti e che hanno bisogno di un numero minore di esempi di apprendimento per ottenere buoni risultati (minor varianza) Modelli che usano pochi attributi sono più semplici da comprendere per un umano e più facilmente rappresentabili

Due approcci Feature Selection Si seleziona un sottoinsieme degli attributi tra quelli originali. Feature Extraction Si derivano nuovi attributi (features) da quelli originali. Per esempio, nuove fetaures sono ottenute come combinazioni di attributi.

Meriti dei due approcci Feature Selection Rimozione di features non rilevanti o ridondanti. Migliore interpretabilità del modello predittivo. Preferibili per applicazioni dove l interpretabilità è più importante dell accuratezza. Feature Extraction Tipicamente più potenti generando features più discriminative. Accuratezza migliore. Preferibili per applicazioni dove l accuratezza è più importante dell interpretabilità.

Feature Selection Filters methods Considera caratteristiche generali del training set. Feature selection è un pre-processamento dei dati indipendente dall algoritmo di predizione Wrapper methods La selezione delle feature viene fatta sulla base della loro capacità predittive, tipicamente su un insieme hold-out Embedded methods Una via di mezzo. La selezione delle feature è inserita nella ottimizzazione (training) del modello predittivo

Feature Extraction Il metodo più importante si chiama Principal Component Analysis (PCA) e consiste nella estrazione di un insieme di features non correlate linearmente (componenti principali) Il numero di componenti principali è solitamente molto inferiore al numero di features originali

Applicazioni Computational biology. Pochi esempi (decine di campioni) e moltissime features (migliaia di geni) Face recognition. Quali sono le features di una faccia più importanti per il riconoscimento? Health studies. Generalmente il calcolo delle feature ha un costo alto! Financial engineering and risk management. Moltissimi fattori coinvolti nell evoluzione. Ridurre il numero di fattori a quelli più importanti riduce la complessità e migliora la interpretabilità dei risultati. Text classification. Ogni termine è associato ad una features. Riducendo il numero di features si riduce la complessità computazionale degli algoritmi di apprendimento.

Kernel Learning IDEA: Apprendere la funzione (o la matrice) kernel 1. Metodi parametrici per il kernel learning 2. Transductive feature extraction con kernel non lineari 3. Spectral Kernel Learning 4. Multiple Kernel Learning

Metodi parametrici per il KL Ottimizza i parametri di una funzione kernel parametrica (per esempio RBF, Poly) k x, z = e x z t M(x z) Scelte particolari: M = β 0 I M = diag(β 1,, β m )

Transductive feature extraction con kernel non lineari Effettua una feature extraction implicitamente nel feature space. Kernel Principal Component Analysis (KPCA) è l esempio più popolare di questo approccio. Si calcolano implicitamente le proiezioni sugli autovettori (direzioni principali) Problema: è un approccio solo trasduttivo! Necessario usare tecniche out-sample per approssimare i valori del kernel su nuovi esempi

Spectral Kernel Learning La matrice kernel (essendo definita positiva) può essere scritta nel modo seguente: λ s autovalori di K u s autovettori di K K = n s=1 λ s u s u s t Utilizzando una trasformazione τ(λ) implicitamente agiamo nello spazio delle feature. Infatti, il kernel modificato può essere ottenuto con X = U Λ 1/2. L idea quindi è quella di ottimizzare lo spettro della matrice kernel. Anche questo è un approccio trasduttivo, percui valgono le problematiche del caso precedente!

Multiple Kernel Learning In questo caso si tratta di combinare linearmente kernel diversi definiti a priori e apprendere la combinazione: K = n s=1 μ s K s Fixed methods o heuristic methods: una semplice regola (magari euristica) viene utilizzata per il calcolo dei coefficienti (semplice media dei kernel, basati sulla accuratezza dei singoli kernel, ecc.) Optimization methods: inglobano i coefficienti come variabile da apprendere nel problema di ottimizzazione (per esempio la SVM)

Per approfondire Veronica Bolon-Canedo, Michele Donini, Fabio Aiolli Feature and kernel learning 23th European Symposium on Artificial Neural Networks, ESANN 2015, Bruges, Belgium, April 22-24, 2015