CORSO DI LABORATORIO OTTIMIZZAZIONE COMBINATORIA Data Mining Parte I Informazioni e programma del corso Introduzione al data mining e machine learning
INFORMAZIONI Il corso di laboratorio Ottimizzazione Combinatoria si propone di guidare gli studenti che abbiano seguito il corso di Ottimizzazione Combinatoria nella realizzazione e nella sperimentazione di un algoritmo di apprendimento automatico attraverso l uso della Programmazione Lineare Intera è rivolto principalmente agli studenti che intendano svolgere l attività di tesi sui temi trattati durante le lezioni i prevede da un minimo di 8 ad un massimo di 16 ore di lezioni, che si terranno nel periodo 20 ottobre 15 dicembre 2010 ogni mercoledì dalle 15:00 alle 16:30 in aula A5 richiede la conoscenza degli argomenti trattati nel corso di Ricerca Operativa edi Ottimizzazione Combinatoria Docente del corso Dott.ssa Silvia Canale Dipartimento di Informatica e Sistemistica A.Ruberti Via Ariosto 25, I piano, lato A, stanza 120 E-mail canale@dis.uniroma1.it
PROGRAMMA Introduzione al data mining e machine learning Apprendimento supervisionato Definizione del problema di apprendimento supervisionato Modelli di apprendimento supervisionato Support vector machine generalizzata (L 0, L 1 1, L -norm) Metodi di soluzione dei problemi di apprendimento supervisionato Metodo di Branch-and-Bound Euristiche per la determinazione di una soluzione intera
MATERIALE DIDATTICO Introduzione al data mining e machine learning Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P. and Uthurusamy, R. Advances in Knowledge Discovery and Data Mining. Menlo Park, Calif.: AAAI Press. 1996. Fayyad, U. M., Piatetsky-Shapiro and G., Smyth, P. From Data Mining to Knowledge Discovery in Databases. AI Magazine 17(3): Fall 1996, 37-54. (http://www.aaai.org/aitopics/assets/pdf/aimag17-03-2-article.pdf) /AIT i / /PDF/AIM i Han, J. and Kamber, M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, August 2000. (http://www.cs.sfu.ca/~han/dm_book.html ) Apprendimento supervisionato Mitchell, T. Machine Learning. McGraw Hill, 1997. Mangasarian, O. L. Support Vector Machine Classification via Parameterless Robust Linear Programming. Data Mining Institute Technical Report 03-01, March 2003. Optimization Methods and Software 20, 2005, 115-125. (ftp://ftp.cs.wisc.edu/pub/dmi/tech-reports/03-01.pdf) Wolsey, Laurence A. Integer Programming. Wiley-Interscience Series in Discrete Mathematics and Optimization. 1998. Slide delle lezioni
ALTRE RISORSE Sul sito web della pagina del corso di laboratorio saranno disponibili: http://www.dis.uniroma1.it/~or/gestionale/oc Informazioni e avvisi relativi alle lezioni Materiale dd didattico Avvisi relativi all esame Disponibilità tesi Orario di ricevimento martedì dalle 15:00 alle 16:00 presso il Dipartimento di Informatica e Sistemistica
PERCHÈ DATA MINING Ogni giorno vengono generati e raccolti migliaia di terabyte di dati Wal-Mart gestisce più di 20 10 6 di transazioni al giorno (Babcock 1994) Mobil Oil Corporation gestisce un database in grado di contenere oltre 10 14 dati relativi all analisi del petrolio (Harrison 1993) Dati medici istudiati i ogni anno in USA U.S.A. occupano oltre 10 9 byte (Matheus 1997) Fattori principali sono aumento delle sorgenti di dati (sensori elettronici, dati dal satellite, ) sistemi automatici di raccolta (codici a barre, sistemi GPS, carte di credito, ) sistemi efficienti ed affidabili di memorizzazione (supporti magnetici, datawarehouse, ) I metodi tradizionali di analisi (fogli elettronici, query, ) non sono più efficaci: nasce l esigenza di sistemi automatici ed intelligenti per aiutare gli esperti nell analisi di grandi quantità di dati
Abbiamo molti dati ma poca informazione Soluzione ESTRAZIONE DI INFORMAZIONE estrazione di informazione interessante dai dati contenuti in grandi basi di dati (Knowledge Discovery in Databases KDD) Informazione insieme delle regolarità (pattern)presentipresenti implicitamente nei dati REGOLE ISTANZE Processo deduttivod Processo induttivo ISTANZE REGOLE INFORMAZIONE
Estrarre dai dati informazione interessante: FINALITÀ E OBIETTIVI nuova non è qualcosa di già noto o di conoscenza comune o attesa ipotesi a priori ida convalidare implicita presente nei dati analizzati, ma non immediatamente accessibile potenzialmente utile può essere utilizzata per prendere delle decisioni Per esser utile, l informazione estratta deve essere comprensibile agli esperti: la forma in cui la conoscenza è estratta deve essere interpretabile facilmente dagli esseri umani Obiettivi principali: descrizione l estrazione dell informazione è condotta allo scopo di descrivere in maniera intelligente e comprensibile i dati predizione l estrazione dell informazione è condotta allo scopo di generalizzare ped o e est a o ede o a o eèco dotta a oscopod ge e a a e l informazione per prevedere il valore incognito di una o più variabili di interesse
PROCESSO DI ESTRAZIONE DI INFORMAZIONE Valutazione pattern Informazione Selezione e trasformazione did dei dati Data Mining Pattern Pulizia i ed integrazione dei dati Datawarehouse Database
PROCESSO DI ESTRAZIONE DI INFORMAZIONE 1. Comprendere e i processi pocess di generazione e e ed utilizzo dei dati (dominio applicativo) 2. Pulire i dati disponibili 3. Integrare dati provenienti da diverse sorgenti Pulizia ed integrazione dei dati Database 4. Selezionare idati Selezione e 5. Trasformare idati trasformazione dei dati a) selezione delle caratteristiche (feature selection) b) estrazione delle caratteristiche (feature extraction) c) discretizzazione attributi numerici d) Datawarehousearehouse
PROCESSO DI ESTRAZIONE DI INFORMAZIONE 6. Data Mining Data Mining 1. Scelta del modello 2. Selezione del modello 3. Valutazione del modello Dati selezionati e trasformati 7. Valutazione dei risultati a) Analisi dei pattern determinati ed eliminazione dei pattern ridondanti b) Visualizzazione dei risultati (grafici, tabelle, ) 8. Utilizzo dell informazione estratta (supporto alle decisioni) Vl Valutazione pattern Pattern
Data Mining 1. Scelta del modello DATA MINING a) in base al tipo di problema apprendimento supervisionato (x,y) y = f(x) classificazione y N regressione y R apprendimento non supervisionato clustering b) in base alle caratteristiche i dl del problema Debiti Reddito 26 Dati Persone (n. istanze) 2 Attributi Reddito ammontare del reddito personale della persona Debiti ammontare dei debiti della persona (mutuo, rate della macchina, ) 2 Etichette debito con la banca pagato debito NON pagato
SCELTA DEL MODELLO Debiti Esempio di pattern IF (Reddito < t) THEN debito non pagato t Reddito Caratteristiche del pattern: validità il pattern trovato dovrebbe essere valido anche sui dati futuri con un certo grado di certezza livello di interesse nuova non è qualcosa di già noto o di conoscenza comune o attesa ipotesi a priori i da convalidare implicita presente nei dati analizzati, ma non immediatamente accessibile (come la media dei redditi, etc.) potenzialmente utile può essere utilizzata per prendere delle decisioni (concedere o meno un prestito ad un prossimo cliente, etc.) comprensibile da parte degli esperti
SCELTA DEL MODELLO Apprendimento supervisionato Classificazione y N con iperpiano separatore IF (w 1 Reddito +w 2 Debiti < b) ) THEN debito non pagato Debiti w 1 Reddito + w 2 Debiti = b Apprendimento supervisionato Classificazione y N con iperpiani paralleli ad assi coordinati Debiti Reddito Reddito = β IF (Reddito < β AND Debiti > α) THEN debito non pagato α β Debito = α Reddito
SCELTA DEL MODELLO Apprendimento supervisionato Regressione y R Debiti = p Reddito + q Debiti Debiti = p Reddito + q Debiti Reddito Apprendimento non supervisionato Clustering partizionale { V 1, V 2, V 3 } x x x Reddito