Apprendimento Automatico (Feature Selection e Kernel Learning)
|
|
|
- Enzo Gioia
- 8 anni fa
- Visualizzazioni
Transcript
1 Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli Sito web del corso
2 Servono tutti gli attributi? Gli attributi (o variabili) dovrebbero essere utilizzati solo se veramente utili (rilevanti) per la classificazione/predizione Meno attributi implicano modelli (p.e. alberi di decisione) di classificazione-predizione più compatti e che hanno bisogno di un numero minore di esempi di apprendimento per ottenere buoni risultati (minor varianza) Modelli che usano pochi attributi sono più semplici da comprendere per un umano e più facilmente rappresentabili
3 Due approcci Feature Selection Si seleziona un sottoinsieme degli attributi tra quelli originali. Feature Extraction Si derivano nuovi attributi (features) da quelli originali. Per esempio, nuove fetaures sono ottenute come combinazioni di attributi.
4 Meriti dei due approcci Feature Selection Rimozione di features non rilevanti o ridondanti. Migliore interpretabilità del modello predittivo. Preferibili per applicazioni dove l interpretabilità è più importante dell accuratezza. Feature Extraction Tipicamente più potenti generando features più discriminative. Accuratezza migliore. Preferibili per applicazioni dove l accuratezza è più importante dell interpretabilità.
5 Feature Selection Filters methods Considera caratteristiche generali del training set. Feature selection è un pre-processamento dei dati indipendente dall algoritmo di predizione Wrapper methods La selezione delle feature viene fatta sulla base della loro capacità predittive, tipicamente su un insieme hold-out Embedded methods Una via di mezzo. La selezione delle feature è inserita nella ottimizzazione (training) del modello predittivo
6 Feature Extraction Il metodo più importante si chiama Principal Component Analysis (PCA) e consiste nella estrazione di un insieme di features non correlate linearmente (componenti principali) Il numero di componenti principali è solitamente molto inferiore al numero di features originali
7 Applicazioni Computational biology. Pochi esempi (decine di campioni) e moltissime features (migliaia di geni) Face recognition. Quali sono le features di una faccia più importanti per il riconoscimento? Health studies. Generalmente il calcolo delle feature ha un costo alto! Financial engineering and risk management. Moltissimi fattori coinvolti nell evoluzione. Ridurre il numero di fattori a quelli più importanti riduce la complessità e migliora la interpretabilità dei risultati. Text classification. Ogni termine è associato ad una features. Riducendo il numero di features si riduce la complessità computazionale degli algoritmi di apprendimento.
8 Kernel Learning IDEA: Apprendere la funzione (o la matrice) kernel 1. Metodi parametrici per il kernel learning 2. Transductive feature extraction con kernel non lineari 3. Spectral Kernel Learning 4. Multiple Kernel Learning
9 Metodi parametrici per il KL Ottimizza i parametri di una funzione kernel parametrica (per esempio RBF, Poly) k x, z = e x z t M(x z) Scelte particolari: M = β 0 I M = diag(β 1,, β m )
10 Transductive feature extraction con kernel non lineari Effettua una feature extraction implicitamente nel feature space. Kernel Principal Component Analysis (KPCA) è l esempio più popolare di questo approccio. Si calcolano implicitamente le proiezioni sugli autovettori (direzioni principali) Problema: è un approccio solo trasduttivo! Necessario usare tecniche out-sample per approssimare i valori del kernel su nuovi esempi
11 Spectral Kernel Learning La matrice kernel (essendo definita positiva) può essere scritta nel modo seguente: λ s autovalori di K u s autovettori di K K = n s=1 λ s u s u s t Utilizzando una trasformazione τ(λ) implicitamente agiamo nello spazio delle feature. Infatti, il kernel modificato può essere ottenuto con X = U Λ 1/2. L idea quindi è quella di ottimizzare lo spettro della matrice kernel. Anche questo è un approccio trasduttivo, percui valgono le problematiche del caso precedente!
12 Multiple Kernel Learning In questo caso si tratta di combinare linearmente kernel diversi definiti a priori e apprendere la combinazione: K = n s=1 μ s K s Fixed methods o heuristic methods: una semplice regola (magari euristica) viene utilizzata per il calcolo dei coefficienti (semplice media dei kernel, basati sulla accuratezza dei singoli kernel, ecc.) Optimization methods: inglobano i coefficienti come variabile da apprendere nel problema di ottimizzazione (per esempio la SVM)
13 Per approfondire Veronica Bolon-Canedo, Michele Donini, Fabio Aiolli Feature and kernel learning 23th European Symposium on Artificial Neural Networks, ESANN 2015, Bruges, Belgium, April 22-24, 2015
Riconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.
Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente
Reti Neurali (Parte I)
Reti Neurali (Parte I) Corso di AA, anno 2017/18, Padova Fabio Aiolli 30 Ottobre 2017 Fabio Aiolli Reti Neurali (Parte I) 30 Ottobre 2017 1 / 15 Reti Neurali Artificiali: Generalità Due motivazioni diverse
Principal. component analysis. Dai volti agli spettri di galassie
Principal component analysis Dai volti agli spettri di galassie SCOPO: PCA for beginners Ridurre il numero di variabili all interno di una collezione di oggetti per descriverli piu facilmente, sulla base
Esercizi su Autovalori e Autovettori
Esercizi su Autovalori e Autovettori Esercizio n.1 5 A = 5, 5 5 5 Esercizio n.6 A =, Esercizio n.2 4 2 9 A = 2 1 8, 4 2 9 Esercizio n.7 6 3 3 A = 6 3 6, 3 3 6 Esercizio n.3 A = 4 6 6 2 2, 6 6 2 Esercizio
Progettazione di un Sistema di Machine Learning
Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale Rosati Jessica Machine Learning System Un sistema di Machine learning apprende automaticamente
Apprendimento Automatico (Lezione 1)
Apprendimento Automatico (Lezione 1) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Orario 40 ore di lezione in aula (5cfu) 8 ore di laboratorio
Feature Selection per la Classificazione
1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione
Introduzione alle Reti Neurali
Introduzione alle Reti Neurali Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: [email protected] @famo2spaghi http://stegua.github.com Reti Neurali Terminator
Reti Neurali in Generale
istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono
Elementi di Algebra Lineare. Spazio Vettoriale (lineare)
Elementi di Algebra Lineare Spazio Vettoriale (lineare) Uno spazio vettoriale su un corpo F è una quadrupla (X, F, +, ) costituita da: un insieme di elementi X, detti vettori, un corpo F, i cui elementi
Apprendimento Automatico (Intro)
Apprendimento Automatico (Intro) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1617/aa/aa.html Orario 40 ore di lezione in aula (5cfu) 8 ore di laboratorio (1cfu)
DATA MINING IN TIME SERIES
Modellistica e controllo dei sistemi ambientali DATA MINING IN TIME SERIES 01 Dicembre 2009 Dott. Ing.. Roberto Di Salvo Dipartimento di Ingegneria Elettrica Elettronica e dei Sistemi Anno Accademico 2009-2010
Apprendimento Automatico: Teoria e Applicazioni
Apprendimento Automatico: Teoria e Applicazioni Apprendimento Automatico Componenti strutturati del DI: Alberto Bertoni Paola Campadelli Elena Casiraghi Nicolò Cesa-Bianchi Dario Malchiodi Matteo Re Giorgio
Intelligenza Artificiale. Soft Computing: Reti Neurali Generalità
Intelligenza Artificiale Soft Computing: Reti Neurali Generalità Neurone Artificiale Costituito da due stadi in cascata: sommatore lineare (produce il cosiddetto net input) net = S j w j i j w j è il peso
Analisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di
Riduzione Dimensionalità
Introduzione Definizioni PCA vs LDA Principal Component Analysis (PCA) Linear Discriminant Analysis (LDA) t-sne 1 Definizioni Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction)
Apprendimento automatico e Reti Neurali. Francesco Sambo tel
Apprendimento automatico e Reti Neurali Francesco Sambo www.dei.unipd.it/~sambofra [email protected] tel. 049 827 7834 Apprendimento automatico Capacità di un agente di sintetizzare nuova conoscenza
Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Serie storiche Introduzione Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi. I modelli di analisi delle serie storiche si
Progettazione di un Sistema di Machine Learning
Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale a.a. 2013-14 Vito Claudio Ostuni Data analysis and pre-processing Dataset iniziale Feature
L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
Algoritmo di Branch & Bound
Sapienza Università di Roma - Dipartimento di Ingegneria Informatica, Automatica e Gestionale Algoritmo di Branch & Bound Docente: Renato Bruni [email protected] Corso di: Ottimizzazione Combinatoria
Corso di Intelligenza Artificiale A.A. 2016/2017
Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
Lezione introduttiva su reti neurali e SVM Veronica Piccialli. Corso di Ottimizzazione a.a (seconda parte)
Lezione introduttiva su reti neurali e SVM Veronica Piccialli Corso di Ottimizzazione a.a. 2009-10 (seconda parte) Ottimizzazione Statistica Fisica Biologia Reti Neurali Matematica Psicologia Informatica
Applicazioni della SVD
Applicazioni della SVD Gianna M. Del Corso Dipartimento di Informatica, Università di Pisa, Italy 28 Marzo 2014 1 Le applicazioni presentate 2 Text Mining 3 Algoritmo di riconoscimento di volti Le Applicazioni
Modelli per variabili dipendenti qualitative
SEMINARIO GRUPPO TEMATICO METODI e TECNICHE La valutazione degli incentivi industriali: aspetti metodologici Università di Brescia, 17 gennaio 2012 Modelli per variabili dipendenti qualitative Paola Zuccolotto
Analisi della varianza
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO
Statistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme
Statistica Metodologica Avanzato Test 1: Concetti base di inferenza
Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con
Luigi Piroddi
Automazione industriale dispense del corso 13. Reti di Petri: analisi strutturale sifoni e trappole Luigi Piroddi [email protected] Introduzione Abbiamo visto in precedenza il ruolo dei P-invarianti
Spazi euclidei, endomorfismi simmetrici, forme quadratiche. R. Notari
Spazi euclidei, endomorfismi simmetrici, forme quadratiche R. Notari 14 Aprile 2006 1 1. Proprietà del prodotto scalare. Sia V = R n lo spazio vettoriale delle n-uple su R. Il prodotto scalare euclideo
Gaussian processes (GP)
Gaussian processes (GP) Corso di Modelli di Computazione Affettiva Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano [email protected] [email protected] http://boccignone.di.unimi.it/compaff017.html
Stima della qualità dei classificatori per l analisi dei dati biomolecolari
Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: [email protected] Rischio atteso e rischio empirico L` apprendimento di una funzione non nota
DoE Seminary APPLICAZIONE DoE AVL CAMEO. Daniele Bistolfi
DoE Seminary 2013 APPLICAZIONE DoE AVL CAMEO Daniele Bistolfi Calibration Work Flow Test Generator Test Execution Data Analysis & Modelling Optimization Validation 2 Test Generator S-Optimal Design S-OPTIMAL
Tecniche di riconoscimento statistico
Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl [email protected] http://www.onairweb.com/corsopr
Lezione 8. Data Mining
Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi
Algebra lineare con R
Università di Napoli Federico II [email protected] Standardizzare una variabile Standardizzazione Data una variabile X distribuita secondo una media µ e una varianza σ 2 la standardizzazione permette
Algoritmi di Classificazione e Reti Neurali
06/03/2009 1 Algoritmi di Classificazione e Reti Neurali Lezione introduttiva 4 MARZO 2009 Struttura del corso Il corso è in co-docenza proff. L. Grippo e L. Palagi http://www.dis.uniroma1.it/~grippo/
I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.
ESERCIZI SVOLTI DI ALGEBRA LINEARE (Sono svolti alcune degli esercizi proposti nei fogli di esercizi su vettori linearmente dipendenti e vettori linearmente indipendenti e su sistemi lineari ) I. Foglio
FONDAMENTI DI ALGEBRA LINEARE E GEOMETRIA
Cognome Nome Matricola FONDAMENTI DI ALGEBRA LINEARE E GEOMETRIA Ciarellotto, Esposito, Garuti Prova del 21 settembre 2013 Dire se è vero o falso (giustificare le risposte. Bisogna necessariamente rispondere
Intelligenza Artificiale
Intelligenza Artificiale 17 Marzo 2005 Nome e Cognome: Matricola: ESERCIZIO N 1 Ricerca Cieca 5 punti 1.A) Elencare in modo ordinato i nodi (dell'albero sotto) che vengono scelti per l'espansione dalle
Algebra Lineare Autovalori
Algebra Lineare Autovalori Stefano Berrone Sandra Pieraccini Dipartimento di Matematica Politecnico di Torino, Corso Duca degli Abruzzi 24, 10129, Torino, Italy e-mail: [email protected] [email protected]
Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1
Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo
LICEO DELLE SCIENZE APPLICATE
LICEO DELLE SCIENZE APPLICATE San Benedetto PIANO DI LAVORO Docente Stefano Maggi Disciplina INFORMATICA Classe/Sezione Quinta Anno scolastico 2014-2015 FINALITÀ SPECIFICHE E TRASVERSALI DELLA DISCIPLINA
Carte di controllo CUSUM. Le carte a somme cumulate risultano utili quando occorre individuare scostamenti dal valore centrale di piccola entità.
Carte di controllo CUSUM Le carte a somme cumulate risultano utili quando occorre individuare scostamenti dal valore centrale di piccola entità. Le carte Shewart utilizzano le informazioni solo dell ultimo
Minimizzazione di Reti Logiche Combinatorie Multi-livello. livello
Minimizzazione di Reti Logiche Combinatorie Multi-livello livello Maurizio Palesi Maurizio Palesi 1 Introduzione I circuiti logici combinatori sono molto spesso realizzati come reti multi-livello di porte
Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume
Differenze tra metodi di estrazione
Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
Laboratorio software. A.A. 2009-2010 C. Brandolese
Laboratorio software A.A. 2009-2010 Hardware testing with software T1. RAM Testing Il progetto ha lo scopo di studiare e sviluppare alcune delle tecniche note per il testing della memoria RAM di un sistema
Soluzione. (a) L insieme F 1 e linearmente indipendente; gli insiemi F 2 ed F 3 sono linearmente
1. Insiemi di generatori, lineare indipendenza, basi, dimensione. Consideriamo nello spazio vettoriale R 3 i seguenti vettori: v 1 = (0, 1, ), v = (1, 1, 1), v 3 = (, 1, 0), v 4 = (3, 3, ). Siano poi F
Regressione Lineare e Regressione Logistica
Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: [email protected] @famo2spaghi http://stegua.github.com 1 Introduzione
0.1 Condizione sufficiente di diagonalizzabilità
0.1. CONDIZIONE SUFFICIENTE DI DIAGONALIZZABILITÀ 1 0.1 Condizione sufficiente di diagonalizzabilità È naturale porsi il problema di sapere se ogni matrice sia o meno diagonalizzabile. Abbiamo due potenziali
