Uno standard per il processo KDD



Похожие документы
Ciclo di vita dimensionale

Data mining e rischi aziendali

Automazione Industriale (scheduling+mms) scheduling+mms.

PSR CAMPANIA 2007/2013 FONDO FEASR MANUALE OPERATIVO DELLE ATTIVITA DI CONTROLLO DELL AUDIT

ENTE TITOLARE: ISTITUTO VENETO PER IL LAVORO

La Metodologia adottata nel Corso

Piano di gestione della qualità

Preprocessamento dei Dati

La ricerca empirica in educazione

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

La Formazione: elemento chiave nello Sviluppo del Talento. Enzo De Palma Business Development Director

Ricerca di outlier. Ricerca di Anomalie/Outlier

Regressione non lineare con un modello neurale feedforward

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Incident Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Problem Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Norme per l organizzazione - ISO serie 9000

Export Development Export Development

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Il modello di ottimizzazione SAM

EA 03 Prospetto economico degli oneri complessivi 1

manifatturiera e per i servizi

LEAD GENERATION PROGRAM

Organizzazione degli archivi

come nasce una ricerca

Basi di Dati Relazionali

Change Management. Obiettivi. Definizioni. Responsabilità. Attività. Input. Funzioni

RICERCA-AZIONE. l insegnamento riflessivo. Caterina Bortolani-2009

LE CARTE DI CONTROLLO (4)

DATABASE. A cura di Massimiliano Buschi

LA REVISIONE LEGALE DEI CONTI La comprensione

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

L integrazione dell Operatore Socio Sanitario nel processo assistenziale Ruolo dell O.S.S nell ambito del piano assistenziale

11. Evoluzione del Software

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CERTIFICAZIONE ISO 14001

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

LE CARATTERISTICHE. Caratteristiche. - tel fax pag. 2

Le competenze per la gestione e lo sviluppo delle risorse umane nelle università e negli enti di ricerca

Progettaz. e sviluppo Data Base

Scheda operativa Versione rif c00. Libro Inventari

ISA 610 e ISA 620 L'utilizzo durante la revisione dei revisori interni e degli esperti. Corso di revisione legale dei conti progredito

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Analisi di dati di frequenza

Diventa fondamentale che si verifichi una vera e propria rivoluzione copernicana, al fine di porre al centro il cliente e la sua piena soddisfazione.

LA STATISTICA AZIENDALE

Come scrivere una proposta progettuale

Programmazione e controllo

Database. Si ringrazia Marco Bertini per le slides

Obiettivi generali del revisore

12. Evoluzione del Software

I modelli normativi. I modelli per l eccellenza. I modelli di gestione per la qualità. ! I modelli normativi. ! I modelli per l eccellenza

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Appendice III. Competenza e definizione della competenza

Stimare il WCET Metodo classico e applicazione di un algoritmo genetico

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

Manuale di utilizzo del sito ASUWEB

La gestione manageriale dei progetti

Pro e contro delle RNA

Effettuare gli audit interni

Generazione Automatica di Asserzioni da Modelli di Specifica

IL PROCESSO DI BUDGETING. Dott. Claudio Orsini Studio Cauli, Marmocchi, Orsini & Associati Bologna

Project Cycle Management

La progettazione centrata sull utente nei bandi di gara

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S

Organizzazione delle informazioni: Database

Conoscenza. Metodo scientifico

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Governare il processo della sicurezza

Modulo: Scarsità e scelta

PASSAGGIO ALLA ISO 9000:2000 LA GESTIONE DELLE PICCOLE AZIENDE IN OTTICA VISION

SISTEMI DI NUMERAZIONE E CODICI

1- OBIETTIVI DEL DOCUMENTO 2- INTRODUZIONE

L esecuzione di monitoraggi ed analisi si esplica principalmente nelle seguenti attività:

Corso di. Dott.ssa Donatella Cocca

I Problemi e la loro Soluzione. Il Concetto Intuitivo di Calcolatore. Risoluzione di un Problema. Esempio

4.6 APPROVVIGIONAMENTO

Sistemi di misurazione e valutazione delle performance

Progetto Campo Base. Università degli Studi di L Aquila. Facoltà di Ingegneria. Corso di Laurea in Ingegneria Elettronica Corso di Sistemi Informativi

QUESTIONARIO 1: PROCESSO DI AUTOVALUTAZIONE

Comunicazione per le PMI nuove soluzioni a un problema di sempre una practice di Orga 1925

Rapporto dal Questionari Insegnanti

e-dva - eni-depth Velocity Analysis

ISTITUTO COMPRENSIVO DI CANEVA DIPARTIMENTO AREA MATEMATICA-SCIENZE-TECNOLOGIA Scuola Primaria di SARONE. Il Supermercato a scuola

IL PROCESSO DI FABBRICAZIONE (sviluppo nuovo prodotto)

Trials clinici. Disegni di studio

Configuration Management

REFERENZIAZIONI 2001) NUP

SISTEMI DI SUPPORTO ALLE DECISIONI

Principi di analisi causale Lezione 2

Lezione 3: Introduzione all analisi e valutazione delle azioni. Analisi degli Investimenti 2014/15 Lorenzo Salieri

AUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT

Introduzione alla teoria dei database relazionali. Come progettare un database

L uso della Balanced Scorecard nel processo di Business Planning

Транскрипт:

Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo di Knowledge Discovery in Databases E costituito da 6 fasi: 1. Comprensione del business 2. Comprensione dei dati 3. Preparazione dei dati 4. Modellizzazione 5. Valutazione 6. Implementazione

Le fasi del CRISP-DM in dettaglio 1. Comprensione del business: l attenzione è posta sugli obiettivi e requisiti del progetto da una prospettiva di business; viene definito il problema di data mining da risolvere 2. Comprensione dei dati: l obiettivo è la raccolta dei dati e la formulazione di ipotesi Queste prime due fasi rappresentano l identificazione del processo di KDD che si vuole realizzare

Le fasi del CRISP-DM in dettaglio 3. Preparazione dei dati: si individuano tabelle, record e variabili; i dati sono ripuliti in funzione degi strumenti prescelti per la modellazione 4. Modellazione: in questa fase vengono scelte ed applicate una o più tecniche di data mining 5. Valutazione: tramite l analisi dei risultati si valuta se sono stati raggiunti gli obiettivi prefissati e si ipotizza una futura applicazione del modello Queste tre fasi rappresentano l approccio classico per la costruzione di un modello di data mining

Le fasi del CRISP-DM in dettaglio 6. Implementazione: se il modello raggiunge gli obiettivi, si crea un piano d azione per implementarlo ed utilizzarlo nel contesto applicativo Questa fase, a valle della definizione e soluzione del problema di data mining vero e proprio, rappresenta la messa in produzione e sfruttamento del modello ottenuto; è il momento in cui l investimento fatto inizia a pagare Per maggiori informazioni, visitate il sito: www.crisp-dm.org

Un modello di processo KDD più generale Più in generale, un processo KDD può essere considerato l applicazione del metodo scientifico al data mining Il metodo scientifico fu introdotto per la prima volta dal filosofo Francis Bacon nel Novum Organum del 1620 Bacon descrisse il metodo scientifico come un processo in 4 fasi 1. Definizione del problema da rislovere 2. Formulazione di ipotesi 3. Esecuzione di uno o più esperimenti per validare o rigettare le ipotesi 4. Definizione e verifica delle relative conclusioni

Un modello di processo KDD più generale La corrispondenza è definita come segue: Metodo Scientifico 1. Definizione del problema da risolvere 2. Formulazione di ipotesi 3. Esecuzione di uno o più esperimenti per validare o rigettare le ipotesi 4. Definizione e verifica delle relative conclusioni Processo di KDD 1. Identificazione obiettivi 2. Creazione dati target 3. Preprocessing dati 4. Trasformazione dati 5. Data mining 6. Interpretazione e validazione 7. Azione

Le 7 fasi del processo KDD Fase 1: Identificare gli obiettivi Definizione chiara di ciò che deve essere portato a termine, con finalità generali espresse in forma di obiettivi specifici Aspetti che dovrebbero essere tenuti in conto: Definizione chiara del problema e di una lista di criteri per misurare i successi e i fallimenti Scelta strumenti di data mining da utilizzare (dipende dal livello di spiegazione desiderato, tipologia di apprendimento impiegata o combinazione di entrambi gli aspetti) Stima costo del progetto e stesura piano gestione risorse umane Definizione data completamento/consegna del prodotto Programmazione manutenzione sistema (es. aggiornamento modello quando sono disponibili nuovi dati)

Le 7 fasi del processo KDD Fase 2: Creare i dati target Individuazione delle sorgenti dati che verranno utilizzate nel progetto: DB relazionali, DW, file di testo, Weblogs Analisi delle varie sorgenti (struttura, ridondanza, qualità ) e definizione di eventuali operazioni di trasformazione necessarie a rendere i dati omogenei e meglio utilizzabili dagli strumenti di dati mining

Le 7 fasi del processo KDD Fase 3: Preprocessare i dati Pulizia dei dati e risoluzione eventuali anomalie presenti: Duplicazione valori Presenza valori errati Necessità di semplificazione (smoothing, eliminazione outliers) Presenza valori mancanti Questa fase non è necessaria (già fatta con l ETL) se i dati provengono da una sorgente di tipo Data Warehouse

Le 7 fasi del processo KDD Fase 4: Trasformare i dati Trasformazioni comunemente applicate per rendere i dati più trattabili dai metodi di data mining: Normalizzazione (scalamento decimale, normalizzazione min-max, standardizzazione z-score, normalizzazione logaritmica ) Conversione (trasformazione dati categorici in attributi numerici, discretizzazione dati numerici ) Selezione delle variabili e delle osservazioni: alcuni algoritmi di data mining non possono lavorare con dataset troppo grandi e/o con dati contenenti troppe variabili e/o non sanno distinguere le variabili rilevanti da quelle irrilevanti

Fase 4: scelta delle variabili Un possibile algoritmo: Date N variabili, si generi l insieme S di tutte le possibili combinazioni Si rimuova la prima combinazione C dall insieme S e si generi il modello M utilizzando le variabili in C Si misuri la bontà del modello M Fintantoché S non è vuoto: Si tolga una combinazione C da S e sulla base di questa si costruisca un altro modello M Si confronti la bontà di M con quella di M Il migliore fra M ed M sia definito M e sia utilizzato come nuovo termnine di paragone Il modello M finale è quello scelto

Fase 4: scelta delle variabili Questo algoritmo, basandosi su una ricerca esaustiva, sicuramente determina la combinazione migliore di variabili Il problema è la sua complessità, dato che con n variabili a disposizione, il numero di possibili combinazioni è 2^n -1 Generare e testare tutte le combinazioni per un dataset contenente molte variabili diventa quindi impraticabile Pertanto si utilizzano solitamente tecniche alternative: Eliminazione di variabili Creazione di nuove variabili più significative (es. rapporto, differenza, media, incremento/decremento percentuale fra 2 variabili )

Fase 4: eliminazione di variabili Alcuni metodi hanno la capacità intrinseca di selezionare le variabili più interessanti (es. in base al guadagno informativo nella costruzione dei classificatori); per altri metodi invece le variabili meno significative vanno scartate a priori Variabili candidate ad essere eliminate: Variabili di input fortemente correlate con altre sono ridondanti Per dati categorici, qualsiasi variabile avente un valore v con un punteggio di previsione maggiore di una soglia prefissata (quasi sempre la variabile avrà il valore v, e non sarà pertanto d aiuto nel differenziare il comportamento dei dati) Se l apprendimento è supervisionato, l importanza di una variabile numerica può valutarsi in base alla media della classe e alla dev.std. Possono essere determinate tramite apprendimento genetico

Le 7 fasi del processo KDD Fase 5: Data mining A seconda del risultato della valutazione (fase 6), l intero processo è sperimentale e iterativo. Per questa fase occorre: Scegliere il training set e il test set Designare un insieme di variabili di input Scegliere una o più variabili di output, se l apprendimento è supervisionato Scegliere i valori dei parametri per l apprendimento E finalmente utilizzare lo strumento di data mining per costruire un modello generalizzato dei dati

Le 7 fasi del processo KDD Fase 6: Interpretare e valutare Scopo di questa fase è determinare la validità di un modello e la sua applicabilità a problemi esterni all ambito di test; se i risultati sono accettabili la conoscenza acquisita viene trasformata in termini comprensibili agli utenti Per la valutazione si possono usare svariati metodi: Analisi statistica Analisi euristica Analisi sperimentale Analisi umana

Le 7 fasi del processo KDD Fase 7: Agire Consiste nel decidere come utilizzare in modo proficuo il modello che è stato ricavato; esempi di utilizzo sono: Creazione di un rapporto tecnico (report) su ciò che è stato scoperto Riallocazione o posizionamento abbinato di determinati prodotti Invio di proposte commerciali o informazioni promozionali ad un campione selezionato di consumatori Incorporazione di un modello sviluppato come sistema front-end per la scoperta di tentativi di frode, per la concessione di mutui/finanziamenti, per la valutazione della classe di rischio (medico, assicurativo, criminale ) Predisposizione di un nuovo studio scientifico sulla base dei risultati