Apprendimento Automatico: Teoria e Applicazioni

Apprendimento Automatico Componenti strutturati del DI: Alberto Bertoni Paola Campadelli Elena Casiraghi Nicolò Cesa-Bianchi Dario Malchiodi Matteo Re Giorgio Valentini Dottorandi e assegnisti del DI: Giovanni Zappella, Claudio Ceruti (Dottorandi) Marco Frasca, Gabriele Lombardi, Luigi Malagò, Alessandro Rozza (Assegnisti)

Apprendimento Automatico Alcune applicazioni: Categorizzazione automatica di testi, immagini, geni... Analisi predittiva di reti sociali, biologiche e di altri sistemi complessi Recommendation systems Principali discipline coinvolte Statistica, teoria dell'informazione, teoria dei giochi Algoritmi e strutture dati Ottimizzazione Principali linee di ricerca Big / High-dimensional data Predizione su dati strutturati (reti, tassonomie) Algoritmi distribuiti, interagenti e attivi

Big Data analysis in Bioinformatica: Classificazione funzionale multispecie delle proteine UniprotKB/TrEMBL (410.000 specie, 34 milioni di sequenze) Analisi di reti biomolecolari SIMAP network (145 milioni di nodi, 2.6 miliardi di archi) Ricerca di nuovi farmaci e di nuovi target ChEMBLdb (1.5 milioni di composti, 11 milioni di attività ) Metodi di ML per la Biologia Computazionale: Metodi per la classificazione strutturata fortemente scalabili Apprendimento multi-view e multi-task guidato da conoscenza biologica a priori Metodi di apprendimento attivo per la predizione in grafi sparsi Implementazione scalabile di metodi locali per la predizione su grafi tramite tecnologie graph database anacletolab.di.unimi.it

Manifold Learning, Stima della Dimensionalità Intrinseca, Riduzione della Dimensionalità OBIETTIVI: data mining, apprendimento automatico, classificazione, etc. in spazi ad elevata dimensionalità PROBLEMI: curse of dimensionality, edge effect, sparsità dei dati, proprietà geometriche controintuitive SOLUZIONE: Riduzione della dimensionalità Dimensionalità intrinseca (id): parametro fondamentale definito come la minima dimensione dello spazio in cui è possibile proiettare i dati senza perdita di informazione Stato dell'arte: scarsi risultati in caso di dati rumorosi, immersioni non lineari, alti valori di id. PROPOSTE PRESENTATE: sviluppo di stimatori che sfruttano proprietà geometriche dei dati informative anche in alte dimensioni (IDEA, MiND, DANCo). OBIETTIVI FUTURI: sviluppo di tecniche di riduzione della dimensionalità basate sia sull'analisi delle caratteristiche geometriche considerate dagli stimatori sopra elencati, sia dall'id determinata.

Pubblicazioni e Progetti Pubblicazioni: S. Bubeck and N. Cesa-Bianchi, Regret analysis of stochastic and nonstochastic multi-armed bandit problems. Foundations and Trends in Machine Learning, 5(1)1-122, 2012. N. Cesa-Bianchi, M. Re, G. Valentini, Synergy of multi-label hierarchical ensembles, data fusion, and cost-sensitive methods for gene functional inference. Machine Learning, 88(1), pp. 209-241, 2012 M. Frasca, A. Bertoni, M. Re, and G. Valentini, A neural network algorithm for semi-supervised node label learning from unbalanced data. Neural Networks, 43:84-98, 2013 A. Rozza, G. Lombardi, C. Ceruti, E. Casiraghi, P. Campadelli. Novel high intrinsic dimensionality estimators. Machine Learning, 89(1):37-65, 2012. A. Rozza, G. Lombardi, E. Casiraghi, P. Campadelli (2012). Novel Fisher discriminant classifiers. Pattern Recognition, 45:3725-3737, 2012 Progetti: PASCAL2 Network of Excellence (2007-2012) Google Research Award (2010-2011) Xerox University Affairs Committee Award (2011-2013)