CORSO DI LABORATORIO OTTIMIZZAZIONE COMBINATORIA. Informazioni e programma del corso Introduzione al data mining e machine learning

Documenti analoghi
I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione al Data Mining

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Docente. Sistemi Informativi. Programma. Programma. Ing. Fabrizio Riguzzi

Data Mining e Analisi dei Dati

Data mining e rischi aziendali

Sistemi Informativi. Ing. Fabrizio Riguzzi

Feature Selection per la Classificazione

Analisi Univariata e Multivariata dei Dati Economici Bruno Ricca (Dipartimento di studi su risorse, impresa, ambiente e metodologie quantitative)

Elementi di Informatica e Programmazione

Sistemi Informativi. Ing. Fabrizio Riguzzi

Università degli studi di Milano Bicocca Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea Magistrale in INFORMATICA

PDF created with pdffactory trial version Il processo di KDD

BASI DI DATI. basi di dati - introduzione ai sistemi informativi 1

Lezione 8. Data Mining

Sistemi Intelligenti. Riassunto

Introduzione al Data Mining Parte 1

CIM Computer Integrated Manufacturing

SECONDO BIENNIO ISTITUTO TECNICO ELETTRONICA ED ELETTROTECNICA

PIANO DI LAVORO ANNUALE DELLA DISCIPLINA. Classe 3 ATI A.S. 2015/2016

MODULO BASE SOFTWARE PER COMMERCIALISTI E AZIENDE MACCHINE E ARREDAMENTI PER UFFICIO ASSISTENZA TECNICA E SISTEMISTICA

SISTEMI INFORMATIVI AZIENDALI. introduzione ai sistemi informativi 1

Manuale Utente per la Gestione dei Revisori degli Enti Locali

With financial support of the Preven4on of and Fight against Crime Programme European Commission - Directorate- General Home Affairs

Corso di Web Mining e Retrieval

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Data Mining: Applicazioni

PIANO DI LAVORO INDIVIDUALE

Liceo Scientifico " C. CATTANEO " PIANO DI LAVORO DI INFORMATICA. CLASSE 3 LSA SEZ. B e D

Dematerializzare i documenti? Prima occorre dematerializzare (bene e a norma) il processo

MATEMATICA e COMPLEMENTI di MATEMATICA

Liceo Marie Curie (Meda) Scientifico Classico Linguistico PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

Intelligenza Computazionale

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

Introduzione al corso di Programmazione e Laboratorio

Analisi dei requisiti e casi d uso

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

PROGRAMMA DI SCIENZE E TECNOLOGIE APPLICATE 2015/2016 Classe 2ª Sez. C Tecnologico

SISTEMI INFORMATIVI AZIENDALI

ANVU SEZIONE REGIONALE DEL LAZIO

PROVINCIA DI LIVORNO Osservatorio trasporti PROGETTO SIRSS

CUSTOMER RELATIONSHIP MANAGEMENT:

MASTER di I Livello. Il Tutor on line. 3ª Edizione 1575 ore 63 CFU Anno accademico 2015/2016 MA415

Generazione di Numeri Casuali- Parte 2

orario ricevimento via orario ufficio risposta entro 3 giorni

Sistema Informativo per Associazioni Agricole

Sistema azienda. Sistema azienda (o sistema della organizzazione) uno o più obiettivi, o fini istituzionali

Knowledge Discovery e Data Mining

-PROGRAMMA DEL CORSO- Metodologia in Aula

Supervisione di una linea di imbottigliamento. 1/5

e-learning Nuovi strumenti per insegnare, apprendere, comunicare online

Marketing relazionale

Prof. Pagani Corrado HTML

Analisi e Gestione dei Dati

Data warehouse Introduzione

Euroware/Domino. Il prodotto

Laboratorio di Progettazione di Sistemi Software Progetto: modellazione di un dominio e sue attività

Regole di Associazione

Disturbi dell Apprendimento

UNIVERSITÀ DEGLI STUDI DI MILANO-BICOCCA. Facoltà di Scienze matematiche fisiche e naturali. LAUREA IN Matematica

Introduzione al Data Mining Parte 1

Per formalizzare il concetto sono necessarie alcune nozioni relative ai poliedri e alla loro descrizione.

Una miniera di dati sul comportamento degli utenti del Web

Attenzione! il valore della Rimodulazione è superiore alla cifra di Negoziazione

Corso di Laurea in Informatica Umanistica Tesi di Elisa Palumbo

Progetto. Sito internet per la valorizzazione dei progetti di educazione ambientale

Arcadia Informatica Srl Tel: Fax: Via delle Betulle 41, Treviolo (BERGAMO)

Materiale didattico. Sommario

Attività e insegnamenti dell indirizzo Produzioni industriali e artigianali articolazione Artigianato opzione Produzioni tessili sartoriali

Si riporta in allegato alla presente mail quanto disposto dal Miur in tema di sicurezza e salute nei luoghi

FORM069 - La gestione condominiale tra aspetti giuridici e contabilità (III edizione)

AE RZT QSO RKPT SQZC

BASI DATI INFORMATICA

Informatica per la Comunicazione/ Verdicchio/ 24/09/2014/ Domande / Matricola Cognome Nome

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Laboratorio di Sistemi e Automazione (A020-C320) esperienza competenze Competenze trasversali

Data mining su dati finanziari

Corso di Sistemi Informativi Geografici. Presentazione del corso Maria Luisa Damiani A.A

Knowledge Discovery e Data Mining

White Paper: Data Loss Prevention

Data Mining a.a

Elaborato di Fondamenti di Informatica 2007/08. Claudio Guidi

Tecniche avanzate di Content Analytics applicate ad attività di intelligence

Servizi Sociali. La gestione delle determine e degli atti di liquidazione;

PSICOMETRIA. Esercitazione n.1. C.d.L. Comunicazione e Psicologia a.a. 2012/13

SEWASIE. Bologna, 26 Aprile, Domenico Beneventano Sonia Bergamaschi DBGroup Università di Modena e Reggio Emilia

DATA MINING E DATA WAREHOUSE

FORM097 - O.S.S. Integrazione (Operatore Socio Sanitario integrazione da O.S.A.)

Partner del progetto

Big Data Analysis Per rendere scalabile il mercato dell Efficienza Energetica

Manuale di utilizzo dell applicativo web SIT PRG

Marketing - Corso progredito Marketing Research & Consumer Behavior. Gaetano Nino Miceli Maria Antonietta Raimondo

NUCLEI FONDANTI COMPETENZE CONTENUTI ABILITA METODOLOGIE E STRUMENTI METODO SCIENTIFICO VEDERE

Business Intelligence: Data warehouse & Data mining

Progetti di Tutorato Didattico per il Dipartimento di Ingegneria A.A. 2015/2016

Internal rating e gestione efficiente del credito:

Data Mining. KDD e Data Mining - Introduzione (1)

Text Mining nella PA

Transcript:

CORSO DI LABORATORIO OTTIMIZZAZIONE COMBINATORIA Data Mining Parte I Informazioni e programma del corso Introduzione al data mining e machine learning

INFORMAZIONI Il corso di laboratorio Ottimizzazione Combinatoria si propone di guidare gli studenti che abbiano seguito il corso di Ottimizzazione Combinatoria nella realizzazione e nella sperimentazione di un algoritmo di apprendimento automatico attraverso l uso della Programmazione Lineare Intera è rivolto principalmente agli studenti che intendano svolgere l attività di tesi sui temi trattati durante le lezioni i prevede da un minimo di 8 ad un massimo di 16 ore di lezioni, che si terranno nel periodo 20 ottobre 15 dicembre 2010 ogni mercoledì dalle 15:00 alle 16:30 in aula A5 richiede la conoscenza degli argomenti trattati nel corso di Ricerca Operativa edi Ottimizzazione Combinatoria Docente del corso Dott.ssa Silvia Canale Dipartimento di Informatica e Sistemistica A.Ruberti Via Ariosto 25, I piano, lato A, stanza 120 E-mail canale@dis.uniroma1.it

PROGRAMMA Introduzione al data mining e machine learning Apprendimento supervisionato Definizione del problema di apprendimento supervisionato Modelli di apprendimento supervisionato Support vector machine generalizzata (L 0, L 1 1, L -norm) Metodi di soluzione dei problemi di apprendimento supervisionato Metodo di Branch-and-Bound Euristiche per la determinazione di una soluzione intera

MATERIALE DIDATTICO Introduzione al data mining e machine learning Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P. and Uthurusamy, R. Advances in Knowledge Discovery and Data Mining. Menlo Park, Calif.: AAAI Press. 1996. Fayyad, U. M., Piatetsky-Shapiro and G., Smyth, P. From Data Mining to Knowledge Discovery in Databases. AI Magazine 17(3): Fall 1996, 37-54. (http://www.aaai.org/aitopics/assets/pdf/aimag17-03-2-article.pdf) /AIT i / /PDF/AIM i Han, J. and Kamber, M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, August 2000. (http://www.cs.sfu.ca/~han/dm_book.html ) Apprendimento supervisionato Mitchell, T. Machine Learning. McGraw Hill, 1997. Mangasarian, O. L. Support Vector Machine Classification via Parameterless Robust Linear Programming. Data Mining Institute Technical Report 03-01, March 2003. Optimization Methods and Software 20, 2005, 115-125. (ftp://ftp.cs.wisc.edu/pub/dmi/tech-reports/03-01.pdf) Wolsey, Laurence A. Integer Programming. Wiley-Interscience Series in Discrete Mathematics and Optimization. 1998. Slide delle lezioni

ALTRE RISORSE Sul sito web della pagina del corso di laboratorio saranno disponibili: http://www.dis.uniroma1.it/~or/gestionale/oc Informazioni e avvisi relativi alle lezioni Materiale dd didattico Avvisi relativi all esame Disponibilità tesi Orario di ricevimento martedì dalle 15:00 alle 16:00 presso il Dipartimento di Informatica e Sistemistica

PERCHÈ DATA MINING Ogni giorno vengono generati e raccolti migliaia di terabyte di dati Wal-Mart gestisce più di 20 10 6 di transazioni al giorno (Babcock 1994) Mobil Oil Corporation gestisce un database in grado di contenere oltre 10 14 dati relativi all analisi del petrolio (Harrison 1993) Dati medici istudiati i ogni anno in USA U.S.A. occupano oltre 10 9 byte (Matheus 1997) Fattori principali sono aumento delle sorgenti di dati (sensori elettronici, dati dal satellite, ) sistemi automatici di raccolta (codici a barre, sistemi GPS, carte di credito, ) sistemi efficienti ed affidabili di memorizzazione (supporti magnetici, datawarehouse, ) I metodi tradizionali di analisi (fogli elettronici, query, ) non sono più efficaci: nasce l esigenza di sistemi automatici ed intelligenti per aiutare gli esperti nell analisi di grandi quantità di dati

Abbiamo molti dati ma poca informazione Soluzione ESTRAZIONE DI INFORMAZIONE estrazione di informazione interessante dai dati contenuti in grandi basi di dati (Knowledge Discovery in Databases KDD) Informazione insieme delle regolarità (pattern)presentipresenti implicitamente nei dati REGOLE ISTANZE Processo deduttivod Processo induttivo ISTANZE REGOLE INFORMAZIONE

Estrarre dai dati informazione interessante: FINALITÀ E OBIETTIVI nuova non è qualcosa di già noto o di conoscenza comune o attesa ipotesi a priori ida convalidare implicita presente nei dati analizzati, ma non immediatamente accessibile potenzialmente utile può essere utilizzata per prendere delle decisioni Per esser utile, l informazione estratta deve essere comprensibile agli esperti: la forma in cui la conoscenza è estratta deve essere interpretabile facilmente dagli esseri umani Obiettivi principali: descrizione l estrazione dell informazione è condotta allo scopo di descrivere in maniera intelligente e comprensibile i dati predizione l estrazione dell informazione è condotta allo scopo di generalizzare ped o e est a o ede o a o eèco dotta a oscopod ge e a a e l informazione per prevedere il valore incognito di una o più variabili di interesse

PROCESSO DI ESTRAZIONE DI INFORMAZIONE Valutazione pattern Informazione Selezione e trasformazione did dei dati Data Mining Pattern Pulizia i ed integrazione dei dati Datawarehouse Database

PROCESSO DI ESTRAZIONE DI INFORMAZIONE 1. Comprendere e i processi pocess di generazione e e ed utilizzo dei dati (dominio applicativo) 2. Pulire i dati disponibili 3. Integrare dati provenienti da diverse sorgenti Pulizia ed integrazione dei dati Database 4. Selezionare idati Selezione e 5. Trasformare idati trasformazione dei dati a) selezione delle caratteristiche (feature selection) b) estrazione delle caratteristiche (feature extraction) c) discretizzazione attributi numerici d) Datawarehousearehouse

PROCESSO DI ESTRAZIONE DI INFORMAZIONE 6. Data Mining Data Mining 1. Scelta del modello 2. Selezione del modello 3. Valutazione del modello Dati selezionati e trasformati 7. Valutazione dei risultati a) Analisi dei pattern determinati ed eliminazione dei pattern ridondanti b) Visualizzazione dei risultati (grafici, tabelle, ) 8. Utilizzo dell informazione estratta (supporto alle decisioni) Vl Valutazione pattern Pattern

Data Mining 1. Scelta del modello DATA MINING a) in base al tipo di problema apprendimento supervisionato (x,y) y = f(x) classificazione y N regressione y R apprendimento non supervisionato clustering b) in base alle caratteristiche i dl del problema Debiti Reddito 26 Dati Persone (n. istanze) 2 Attributi Reddito ammontare del reddito personale della persona Debiti ammontare dei debiti della persona (mutuo, rate della macchina, ) 2 Etichette debito con la banca pagato debito NON pagato

SCELTA DEL MODELLO Debiti Esempio di pattern IF (Reddito < t) THEN debito non pagato t Reddito Caratteristiche del pattern: validità il pattern trovato dovrebbe essere valido anche sui dati futuri con un certo grado di certezza livello di interesse nuova non è qualcosa di già noto o di conoscenza comune o attesa ipotesi a priori i da convalidare implicita presente nei dati analizzati, ma non immediatamente accessibile (come la media dei redditi, etc.) potenzialmente utile può essere utilizzata per prendere delle decisioni (concedere o meno un prestito ad un prossimo cliente, etc.) comprensibile da parte degli esperti

SCELTA DEL MODELLO Apprendimento supervisionato Classificazione y N con iperpiano separatore IF (w 1 Reddito +w 2 Debiti < b) ) THEN debito non pagato Debiti w 1 Reddito + w 2 Debiti = b Apprendimento supervisionato Classificazione y N con iperpiani paralleli ad assi coordinati Debiti Reddito Reddito = β IF (Reddito < β AND Debiti > α) THEN debito non pagato α β Debito = α Reddito

SCELTA DEL MODELLO Apprendimento supervisionato Regressione y R Debiti = p Reddito + q Debiti Debiti = p Reddito + q Debiti Reddito Apprendimento non supervisionato Clustering partizionale { V 1, V 2, V 3 } x x x Reddito