Introduzione al Data Mining Parte 1



Похожие документы
Introduzione al Data Mining

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Marketing relazionale

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Data Mining e Analisi dei Dati

Il database management system Access

PROGRAMMA SVOLTO NELLA SESSIONE N.

Data Warehousing (DW)

Corso di Analisi Statistica per le Imprese (9 CFU) Prof. L. Neri a.a

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Tesi Di Laurea. Anno Accademico 2010/2011. relatore Ch.mo prof. Cinque Marcello. correlatore Ch.mo Ing. Catello Cacace

La Metodologia adottata nel Corso

Indicatori statistici

Aggiornamento Titoli

LA CONDIZIONE DEL DOTTORATO DI RICERCA A BOLOGNA NEL 2000

Data mining e rischi aziendali

1- OBIETTIVI DEL DOCUMENTO 2- INTRODUZIONE

Corsi di laurea triennale della Facoltà di Economia Sedi di Milano e Roma. Procedura di ammissione a.a. 2015/2016

Titolo: Sistemi di bigliettazione elettronica: analisi dati e data mining Relatore: Andrea Gaffi

1. I titoli conseguiti presso le Università consigliate vengono riconosciuti?

È evidente dunque l'abbattimento dei costi che le soluzioni ASP permettono in quanto:

Data Mining: Applicazioni

Guida Compilazione Piani di Studio on-line

Esame Di Stato A.S. 2004/2005 Istituto Tecnico Commerciale Corso Sperimentale Progetto Mercurio Corso di Ordinamento - Programmatori

Manuale d uso Event Bureau

Cosa è un foglio elettronico

Metodi statistici per le ricerche di mercato

Le Basi di Dati. Le Basi di Dati

Puoi aumentare la popolarità della tua azienda e singoli prodotti, sia a livello locale che più ampio.

OBIETTIVI DEL DOCUMENTO INTRODUZIONE

Il sistema C.R.M. / E.R.M.

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

Gestione del workflow

Software per Helpdesk

REALIZZARE UN MODELLO DI IMPRESA

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

Introduzione al Data Mining: Potenzialità, Applicazioni e Progetti di Ricerca. Differenze nell analisi tra Data Warehousing e Data Mining

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

L abc del geomarketing: la geografia

Data Mining a.a

CRM: IL FUTURO DEL MARKETING ATTRAVERSO LA CONOSCENZA DEL CLIENTE

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

Chi siamo. La normativa ESOMAR (European Society For Opinion And Marketing Research), della quale istituzione Quaeris ha un membro associato.

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Test di italiano di livello A2 e Permesso di soggiorno CE

Introduzione alla teoria dei database relazionali. Come progettare un database

Business Consumer Solution. Il compagno ideale

SEMPLICI INDICAZIONI PER CAPIRE MEGLIO LA REALTÀ AZIENDALE

DOMANDA ONLINE BORSA DI STUDIO - Guida alla compilazione

vendite Come organizzare le informazioni Il Customer Relationship Management nelle Istituzioni Finanziarie Europe

Elementi di Psicometria con Laboratorio di SPSS 1

Politecnico di Bari Corso di Laurea Specialistica in Ingegneria Informatica A.A Casi di Studio. Traccia n 1

PROCEDURA PER LA GESTIONE ESAMI DI STATO AREA ALUNNI AXIOS

Il ruolo del chimico per la sicurezza ambientale

PDF created with pdffactory trial version Il processo di KDD

Corsi di laurea triennale della Facoltà di Economia Sedi di Milano e Roma. Procedura di ammissione a.a. 2016/2017

Per le società non quotate in mercati regolamentati

GUIDA ALLA COMPILAZIONE DEL PIANO DEGLI STUDI ON LINE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Dipartimenti di Fisica, Matematica Ingegneria e Scienza dell Informazione CIBIO - Centro di Biologia Integrata

GARA UNICA. Impostiamo il punteggio minimo (Target Low) e il punteggio massimo (Target High). Il Valore è espresso in PUNTI.

Il modello generale di commercio internazionale

Università per Stranieri di Siena Livello A1

REGOLAMENTO PER LE PROGRESSIONI VERTICALI DEI DIPENDENTI DELL ENTE LOCALE. Approvato con deliberazione giuntale n. 162 del

Corso di Sistemi di Elaborazione delle Informazioni I Anno 2005/2006. Esercizi entità relazione risolti. a cura di Angela Campagnaro

VenereBeautySPA Ver Gestione Parrucchieri e Centro Estetico

SCENARIO. Personas ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

La gestione del cliente in un ottica di marketing

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Esercitazione 7 Progettazione concettuale. Versione elettronica: L07.progConcettuale.pdf

Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering

MODULO MAGAZZINO ARCHIVI DI MAGAZZINO ANAGRAFICA ARTICOLI

Data mining for e- commerce sites

Università di Parma Facoltà di Ingegneria. Polo Tecnologico Nettuno

Le scelte del consumatore in condizione di incertezza (cap.5)

Dipartimenti di Fisica, Matematica Ingegneria e Scienza dell Informazione CIBIO - Centro di Biologia Integrata

GUIDA ALLA RILEVANZA

Convegno 6 giugno 2013 Federlazio Frosinone

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti

Istruzioni per l uso

Test di italiano di livello A2 e Permesso di soggiorno CE

Automazione Industriale (scheduling+mms) scheduling+mms.

Software per parrucchieri

Lezione 1. Introduzione e Modellazione Concettuale

CORSO DI LAUREA MAGISTRALE BIENNALE IN ARCHITETTURA LM4 (In corso di definizione)

Università di Pisa A.A

03. Il Modello Gestionale per Processi

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

Informatica (Basi di Dati)

Come modificare la propria Home Page e gli elementi correlati

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

LE CARTE DI CONTROLLO (4)

Транскрипт:

Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica e Sistemistica Università di Bologna gianluca.moro@unibo.it Via Venezia 52-47023 Cesena Tel. +39 0547 339 237 - Fax 208 Archivi di dati = Tombe di dati? La necessità è la madre delle invenzioni!! La capacità di raccogliere e memorizzare dati ha largamente superato la capacità umana di analizzarli "! Strumenti di raccolta automatica dei dati, maturità della tecnologia database #!Enormi quantità di dati memorizzati e disponibili distanza crescente fra la generazione dei dati e la loro comprensione!! Siamo assetati di conoscenza ma anneghiamo nei dati!! Tuttavia, i dati contengono informazioni di grande interesse economico, sociale e scientifico: "! la ricerca nel Data Mining (DM) ha come scopo la progettazione di strumenti per trasformare i dati in informazione!! Data Mining per recuperare i costi del Data Warehousing "! Integrazione, analisi/sintesi ed estrazione di conoscenza Gianluca Moro - Introduzione al Data Mining 6

A quali domande risponde il DM (i)!! Da cosa è influenzata la vendita di un certo prodotto? "! Market Basket Analysis!! Quali fattori attraggono nuovi clienti? "! Customer acquisition!! Quali informazioni sono rilevanti per stabilire se un nuovo cliente sarà un buon cliente? "! Performance analysis!! In quali macro gruppi si suddividono i miei clienti? "! Segmentazione dei clienti!! Quale prodotto proporre ad un dato cliente? "! Cross-selling!! Quali sono i clienti che potrei perdere? "! Customer retention and churn analysis Gianluca Moro - Introduzione al Data Mining 7 A quali domande risponde il DM (ii)!! Quale altro prodotto proporre all atto di un acquisto? "! Up-selling!! Qual è il rischio che corro a fronte di un investimento? "! Risk analysis!! Quali sono le correlazioni tra i fenomeni che caratterizzano la mia realtà aziendale?!! Frodi fiscali: quali sono le caratteristiche di aziende/persone che fanno evasione fiscale? "! Analisi dei bilanci / dichiarazioni dei redditi!! Frodi assicurative: "! Individuazione di gruppi di persone che creano (artificialmente) incidenti per ricevere risarcimenti "! Assicurazioni mediche: individuare pazienti che si fingono malati Gianluca Moro - Introduzione al Data Mining 8

Differenze nell analisi tra Data Warehousing e Data Mining!! Data Warehousing: "! Vorrei visualizzare le vendite di ogni prodotto suddivise per punto vendita!! Data Mining: "! Vorrei sapere quali sono le caratteristiche dei punti vendita con redditività alta!! Nel primo caso l utente sa già quello che cerca!! Nel secondo caso vuole scoprire la causa di un effetto Gianluca Moro - Introduzione al Data Mining 9 Problemi tipici di Data Mining: La catena commerciale Midwest!! Negozi di vendita al dettaglio e dati sulle vendite!! Cosa si è scoperto?!! i clienti (in prevalenza uomini) che acquistano pannolini il giovedì e il sabato sono propensi ad acquistare anche birra!! Un analisi piú accurata mostró che questi acquirenti concentravano i loro acquisti maggiormente il sabato e marginalmente il giovedí!! Si concluse che la birra veniva prob. acquistata per il weekend. Come sfruttare il risultato?!! Decisione: spostamento del cartello delle birre vicino a quello dei pannolini assicurandosi di non applicare sconti su quei prodotti il giovedì e il sabato.! Gianluca Moro - Introduzione al Data Mining 10

Problemi tipici di Data Mining: Corriere espresso!! diversi percorsi di consegna risultano più lenti di altri!! fattori critici: traffico, tipologia delle strade, autista!!... ma vi sono percorsi che a parità di fattori critici sono comunque sempre più lenti di altri!! Cosa si è scoperto?!! un nuovo fattore critico: il numero di svolte a sinistra!! i percorsi più lenti hanno un numero mediamente maggiore di svolte a sinistra!! Come sfruttare il risultato?!! inserimento del nuovo fattore nel sistema di ottimizzazione dei percorsi e ricalcolo degli itinerari! Gianluca Moro - Introduzione al Data Mining 11 Problemi tipici di Data Mining: Le Mucche della nuova Zelanda!! Ogni anno, gli allevatori caseari in Nuova Zelanda devono prendere una difficile decisione: quali capi tenere nell'allevamento e quali vendere per la macellazione!! Un quinto dei capi degli allevamenti è abbattuto ogni anno alla fine della stagione del latte, quando il foraggio inizia a scarseggiare!! La storia di produzione di vitelli e di latte di ogni bovino influenza questa decisione, insieme ad età, salute, storia, comportamento etc.!! Sono stati registrati circa 700 attributi per milioni di capi!! Come estrarre da questi dati la conoscenza implicita nelle decisioni degli allevatori di maggior successo? Gianluca Moro - Introduzione al Data Mining 12

Problemi tipici di Data Mining: Gli agricoltori statunitensi!! il dipartimento dell'agricoltura degli Stati Uniti ogni anno eroga indennizzi per danni da maltempo a centinaia di migliaia di agricoltori"!! una frazione delle richieste di indennizzo è fraudolenta"!! un'analisi a campione delle richieste per verificarne l'autenticità ha un costo molto elevato rispetto alla resa"!! un progetto di data mining volto a individuare le frodi ha reso oltre venti volte il suo costo Gianluca Moro - Introduzione al Data Mining 13 Problemi tipici di Data Mining: Università (negli USA)!! Ogni anno le Università statunitensi ricevono domande di ammissione da parte di studenti!! Gli studenti forniscono una serie di dati sulla carriera scolastica e personali!! Obiettivo: scegliere gli studenti migliori, ossia che completeranno gli studi con ottimi voti e senza ritardi!! Dalla storia degli studenti che hanno già completato gli studi individuare le caratteristiche di quelli migliori!! A partire da queste caratteristiche stimare voto finale e ritardo alla laurea per ogni studente candidato!! Progetto sperimentale simile con AlmaLaurea s.r.l "! Stima della fascia di voto e ritardo per gli studenti che dalla laurea triennale si iscrivono alla specialistica Gianluca Moro - Introduzione al Data Mining 14

Knowledge Discovery The nontrivial extraction of implicit, previously unknown and potentially useful information from data W. Frawley, G. Piatetsky-Shapiro, and C. Matheus: Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pgs 213-228 Gianluca Moro - Introduzione al Data Mining 15 Il Processo di Knowledge Discovery Interpretation and Evaluation Data Mining Knowledge Selection and Preprocessing p(x)=0.02 Data Consolidation Warehouse Prepared Data Patterns & Models Consolidated Data Data Sources Gianluca Moro - Introduzione al Data Mining 16

Tecniche e Algoritmi di DM (i)!! Partono da un insieme di osservazioni:!! prodotti, vendite, clienti, pazienti, studenti...!! Ogni osservazione è caratterizzata da un insieme di attributi:!! vendite(prodotto, mese, cliente, num_ordini, zona,... )!! paziente(età, sesso, risultato di un certo esame clinico) Att1 Att2 Att3 Att4 Att5 0.54 Giallo Y 123 0.89 Rosso N 5734 2 Verde N 8944! Scoprono informazioni relative alle osservazioni in input! Correlazioni tra valori in colonne diverse! Correlazioni tra osservazioni/righe diverse Gianluca Moro - Introduzione al Data Mining 17 Tecniche e Algoritmi di DM (ii) UNSUPERVISED LEARNING! REGOLE ASSOCIATIVE $! Scopre le correlazioni tra colonne Esempi Utilizzato per analizzare gli acquisti in un supermercato! CLUSTERING $! Scopre i cluster (raggruppamenti) di osservazioni/righe simili tra di loro Utilizzato per segmentare i clienti! CLASSIFICAZIONE $! Predice il gruppo di appartenenza di un osservazione! REGRESSIONE $! Stima il valore di un attributo numerico di un osservazione! SERIE TEMPORALI $! Prevede l andamento di un certo valore SUPERVISED LEARNING Per riconoscere i clienti che stanno per abbandonare l azienda Fare stime numeriche: es. Quanto sarà l incasso di oggi, nota la data e le condizioni meteo? Gianluca Moro - Introduzione al Data Mining 18

Regole Associative (i)!! Transazione "! insieme di elementi (item) acquistati congiuntamente (quello che si trova in un carrello della spesa)!! Regola Associativa "! dato un insieme di item I e un insieme di transazioni D, una regola associativa del tipo X! Y (X implica Y) (con X,Y " I e X # Y = $) è un implicazione chi compra X compra anche Y Gianluca Moro - Introduzione al Data Mining 19 Regole Associative: Supporto e Confidenza!! Supporto di una regola ( X U Y / T ) "! È la percentuale di transazioni che contengono sia X che Y sul totale delle transazioni esistenti es: (il 40% delle transazioni natalizie include panettone e spumante)!! Confidenza di una regola ( X U Y / X ) "! È la percentuale di transazioni che contengono sia X che Y rispetto alle transazioni che contengono almeno X es: (a Natale, l 80% delle persone che comprano spumante comprano anche il panettone)!! Problema: "! determinare tutte le regole associative che abbiano supporto almeno pari a MINSUPP e confidenza almeno pari a MINCONF Gianluca Moro - Introduzione al Data Mining 20

Supporto e confidenza: Esempio!! La regola A! C ha "! Supporto pari al 50%, perché {A C} compare in 2 transazioni su 4 "! Confidenza pari al 66%, perché su 3 transazioni in cui compare A, in due compare anche C Transaction ID Items 100 A B C 200 A C 300 A D!! La regola C! A ha "! Supporto pari al 50% "! Confidenza pari al 100% 400 B E F Gianluca Moro - Introduzione al Data Mining 21 Regole Associative: Utilità!! Trova le regole che hanno noccioline nel conseguente " "! possono essere usate per capire quali prodotti il supermercato deve comprare per favorire la vendita di noccioline"!! Trova le regole che hanno noccioline nell#antecedente" "! può prevedere quali prodotti possono subire una riduzione delle vendite se il supermercato decide di non vendere più noccioline"!! Trova le regole che hanno noccioline nell#antecedente e birra nel conseguente" "! può servire per capire quali altri prodotti oltre alle noccioline servono per favorire la vendita di birra (e.g. pannolini per bambini vedi dopo)"!! Trova le regole che riguardano item delle corsie 10 e 11 " "! possono essere usate ai fini di una migliore organizzazione dei prodotti nelle corsie!!! Trova le regole più interessanti" "! Ad esempio regole con maggiore confidenza e/o supporto" Gianluca Moro - Introduzione al Data Mining 22