PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

Documenti analoghi

Data mining e rischi aziendali

Il DataMining. Susi Dulli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Suggerimenti per l approccio all analisi dei dati multivariati

Data Warehousing (DW)

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

MASTER UNIVERSITARIO

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

Marketing relazionale

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

Uno standard per il processo KDD

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Introduzione all Information Retrieval

SISTEMI INFORMATIVI AZIENDALI

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

CHIUSURE di MAGAZZINO di FINE ANNO

Lezione 1. Introduzione e Modellazione Concettuale

Cosa mette a disposizione dell'utente

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

VCS. Verbatim Coding System

Data mining for e- commerce sites

Il CRM per la Gestione del Servizio Clienti

Cosa è un foglio elettronico

Data Mining e Analisi dei Dati

Il catalogo MARKET. Mk6 Il sell out e il trade marketing: tecniche, logiche e strumenti

Data Mining a.a

Controllo di Gestione

Automazione Industriale (scheduling+mms) scheduling+mms.

Analisi dei requisiti e casi d uso

Data warehouse Introduzione

Ruolo e attività del punto nuova impresa

Dai sistemi documentari al knowledge management: un'opportunità per la pubblica amministrazione

Gestione Turni. Introduzione

Introduzione alla teoria dei database relazionali. Come progettare un database

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

B C I un altro punto di vista Introduzione

Strumenti di modellazione. Gabriella Trucco

PROGETTO EM.MA PRESIDIO

Database. Si ringrazia Marco Bertini per le slides

WEB MARKETING. Indicizzazione nei motori di ricerca. SCHEDA PRODOTTO Versione 1.1

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

Relazione sul data warehouse e sul data mining

Pro e contro delle RNA

Sistemi di Gestione dei Dati e dei Processi Aziendali. Computer-Assisted Audit Technique (CAAT)

Olga Scotti. Basi di Informatica. Excel

SOLUZIONE Web.Orders online

SysAround S.r.l. L'efficacia delle vendite è l elemento centrale per favorire la crescita complessiva dell azienda.

Il motore semantico della PA piemontese. Marta Garabuggio - Regione Piemonte Carlo Fortunato CSI - Piemonte

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Gestione ed analisi di base dati nell epidemiologia. delle malattie infettive

LEAD GENERATION PROGRAM

Ricerca di outlier. Ricerca di Anomalie/Outlier

PLUS. Syllabus rev. 1.04

LA REVISIONE LEGALE DEI CONTI La comprensione

DSCube. L analisi dei dati come strumento per i processi decisionali

Introduzione ad OLAP (On-Line Analytical Processing)

Il passaggio tra il primo ed il secondo livello: gli strumenti di extraction, tranformation and loading (ETL tools)

MODULO 5 Appunti ACCESS - Basi di dati

Manuale di utilizzo del sito ASUWEB

Gli utenti del mercato online ebay.it Analisi degli abbandoni

ALBERGHIERO COME PIANIFICARE LA VERIFICA E LA VALUTAZIONE

LA DAINESE GROUP SRL PRESENTA

DEPLOY YOUR BUSINESS

Raggruppamenti Conti Movimenti

ING SW. Progetto di Ingegneria del Software. e-travel. Requisiti Utente. Specifiche Funzionali del Sistema

SoftwareSirio Modelli di Board

Settori di attività economica

Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Retail L organizzazione innovativa del tuo punto vendita

Valutare gli esiti di una consultazione online

Presentazione. Risorse Web. Metodi Statistici 1

PROCEDURA PER LA GESTIONE ESAMI DI STATO AREA ALUNNI AXIOS

Scheda. Il CRM per la Gestione del Marketing. Accesso in tempo reale alle Informazioni di rilievo

La norma ISO 9001:08 ha apportato modifiche alla normativa precedente in

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

VALORE DELLE MERCI SEQUESTRATE

Novità di Access 2010

LE CARATTERISTICHE. Caratteristiche. - tel fax pag. 2

Crescere attraverso la rete di vendita e le attività commerciali La crescita attraverso le attività commerciali

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Analisi e catalogazione automatica dei Curriculum Vitae

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

PROGETTO TECNICO SISTEMA DI GESTIONE QUALITA IN CONFORMITÀ ALLA NORMA. UNI EN ISO 9001 (ed. 2008) n. 03 del 31/01/09 Salvatore Ragusa

L intelligence commerciale per il governo della complessità distributiva: l approccio adottato in BNL

Segmentare ovvero capire il contesto di mercato di riferimento

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Il Piano di Marketing

Regolamento del servizio di tutorato. (Decreto Rettorale n.35 del 12 dicembre 2008)

ELEMENTI ESSENZIALI DEL PROGETTO. SETTORE e Area di Intervento: Patrimonio artistico e culturale (D)- cura e conservazione biblioteche (01)

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

I cookie sono classificati in base alla durata e al sito che li ha impostati.

Transcript:

Il processo di KDD

Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da satellite o dasensori remoti, servizi on line...) Sviluppo delle tecnologie per l immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu capaci e piu economici (dischi, CD) hanno consentito l archiviazione di grosse quantita di dati

Introduzione Simili volumi di dati superano di molto la capacità di analisi dei metodi manuali tradizionali, come le query ad hoc. Tali metodi possono creare report informativi sui dati ma non riescono ad analizzare il contenuto dei report per focalizzarsi sulla conoscenza utile Emerge l'esigenza di utilizzare tecniche e strumenti con la capacità di assistere in modo intelligente e automatico gli utenti decisionali nell'estrazione di elementi di conoscenza dai dati

Introduzione Queste tecniche e strumenti sono al centro del campo emergente del Knowledge Discovery in Databases (KDD)

Introduzione Il termine knowledge discovery in databases indica l'intero processo di ricerca di nuova conoscenza dai dati Il termine di data mining si riferisce all'applicazione di algoritmi per estrarre pattern dai dati senza considerare gli ulteriori passi che caratterizzano il processo di KDD (come, ad esempio, incorporare appropriata conoscenza a priori e fornire una opportuna interpretazione dei risultati)

Introduzione Pertanto l'intero processo, tipicamente interattivo e iterativo, di ricerca, estrazione ed interpretazione di pattern dai dati, che indichiamo come KDD, coinvolge l'applicazione ripetuta di specifici metodi e algoritmi di data mining e l'interpretazione dei pattern generati da tali algoritmi Nel seguito forniremo una definizione più dettagliata di KDD e una panoramica sui metodi e gli algoritmi di data miningpiù usati

Il processo di KDD (1) Interpretation/ Evaluation Knowledge Data Mining Transformation Patterns Selection Preprocessing Transformed Data Preprocessed Data Metadata Target Data Data

Il processo di KDD: le fasi 1. Sviluppo e approfondimento del dominio di applicazione, della conoscenza disponibile a priori e degli obiettivi dell'utente finale. 2. Creazione di un target data set: selezione del data set o focalizzazione su un sottoinsieme di variabili o di campioni di dati oggetto del processo KDD.

Il processo di KDD: le fasi 3. Cleaning dei dati e preprocessing: operazioni di base come la rimozione del rumore o degli outliers se è il caso, raccolta delle informazioni necessarie per modellare o tener conto del rumore, messa a punto di strategie per gestire i dati mancanti e per gestire i dati tempo-varianti.

Il processo di KDD: le fasi 4. Riduzione dei dati e proiezione: rappresentazione dei dati in modo opportuno in relazione agli obiettivi della ricerca. Riduzione delle dimensioni e impiego di metodi di trasformazione per ridurre l'effettivo numero di variabili da sottoporre al processo di ricerca.

Il processo di KDD: le fasi 5. Scelta del compito del processo di data mining: identificazione dell'obiettivo del KDD, stabilire, cioè se si tratti di una classificazione, di una regressione, di un clustering 6. Scelta dell'algoritmo o degli algoritmi di data mining: selezione dei metodi da usare per ricercare pattern nei dati. Questa fase comprende la decisione su quali modelli e parametri potrebbero essere appropriati e il matchingdi un particolare metodo di data mining con i criteri generali del processo KDD (per es. l'utente finale potrebbe essere maggiormente interessato alla comprensione del modello piuttosto che alle sue capacitàpredittive).

Il processo di KDD: le fasi 7. Data mining: ricerca di pattern di interesse in una particolare forma di rappresentazione o su un set di rappresentazioni diverse (regole di classificazione, alberi decisionali, regressione, clustering ). Il risultato del processo di data mining èconsiderevolmente influenzato dalla correttezza delle fasi precedenti.

Il processo di KDD: le fasi 8. Interpretazione dei pattern trovati e possibile ritorno alle fasi iniziali per ulteriori iterazioni. 9. Consolidamento della conoscenza estratta: incorporazione di tale conoscenza nel sistema di performance o, semplicemente, documentazione e reporting alle parti interessate. Questa fase include anche il controllo per la risoluzione di potenziali contraddizioni con la conoscenza precedentemente disponibile.

Gli algoritmi di Data mining

Differenze tra Data Retrieval e Data Mining Data Retrieval Data Mining Quanti sono i clienti che hanno età tra 30 e 50 anni e comprano Diet Coke Quali documenti contengono la parola Sanità Quanti brevetti ha depositato la società Colgate nel 1999 Quali sono le caratteristiche dei miei clienti Quali sono gli argomenti trattati da un insieme di documenti Quali sono i miei concorrenti e come evolve la loro attività

I vantaggi del Data Mining Trattamento di dati quantitativi, qualitativi, testuali, immagini e suoni Non richiede ipotesi a priori da parte del ricercatore Non richiede ipotesi sulla forma distributiva delle variabili Possibilità di elaborare un numero elevato di osservazioni Possibilità di elaborare un numero elevato di variabili Algoritmi ottimizzati per minimizzare il tempo di elaborazione Semplicità di interpretazione del risultato Visualizzazione dei risultati

Perché sono necessari strumenti di Data Mining Quantità dei dati Natura dei dati Rapida evoluzione del mercato Inadeguatezza degli strumenti tradizionali valore volume Decisione Conoscenza Informazione Dati

Tecniche di Knowledge Discovery Informazione Conoscenza interpretazione Modello Percezione Visualizzazione dei risultati

Interazione tra utente e sistema di Data Mining Generazione Regole/modelli ipotesi Raffinamento e test modelli Dati utente Applicazione a Nuove strategie di business Modello Aggiornamento ipotesi

Generazione del modello a iniziativa del sistema Generazione Regole/modelli Creazione del modello Dati sistema ipotesi Aggiornamento ipotesi Raffinamento e test modelli Applicazione a Nuove strategie di business Validazione del modello da parte dell utente Revisione del modello

Problemi di Data Mining L Analisi per gruppi suddivide una popolazione in sottoinsiemi disgiunti secondo definiti criteri. La Classificazione cataloga un fenomeno in una certa classe secondo un insieme di regole predeterminate. Le Regole d associazione sono legami di casualità validi tra gli attributi delle osservazioni di un data set.

Metodi di Data Mining Esplorazione mediante la visualizzazione multidimensionale (scaling multimensionale, analisi di regressione logistica, stepwise, analisi delle corrispondenze) Associazione e sequenze (usate nella market basket analysis per misurare l affinità dei prodotti) Clustering (segmentazione della clientela in gruppi omogenei) Analisi Fattoriale (per determinare il numero di fattori da estrarre) Modelli previsivi -di classificazione (Alberi di Decisione) - Reti Neurali Mappe di Kohonen (Reti Neurali non supervisionate) Algoritmi Genetici

Esempi di applicazioni Esempio Quali sono i tre principali motivi che hanno indotto il mio cliente a passare alla concorrenza? Quali sono le fasce di clienti a cui posso offrire nuovi prodotti? Quali sono le probabilità che un cliente che ha aperto un c/c acquisterà anche il prodotto x in breve tempo? Quali sono le probabilità che un cliente acquisti due prodotti completamente differenti? Quale sarà il prezzo del titolo tra un giorno/mese ecc? Tipo di problema Classificazione Clustering Sequencing Associazione Previsione Tecnica adottabile Reti Reurali DecisionTree Reti Neurali DecisionTree Tecniche statistiche Rule induction Tecniche statistiche Rule induction Reti neurali Tecniche statistiche

Data mining Ma non se ne occupava la statistica? J. Kettenring (ex- presidente dell ASA) definisce la statistica come la scienza di apprendere dai dati Tecniche statistiche orientate alla scoperta di strutture di relazione e di modelli Analisi esplorativa Analisi esplorativa multivariata Analisi delle componenti principali Analisi delle corrispondenze Analisi dei cluster Ecc.

Data mining Cosa c e c di nuovo nel Data mining? La possibilità di gestire enormi quantità di dati, che rendono obsoleta la definizione classica di grandi campioni (miliardi di record e terabytes di dati non sono inusuali) Le recenti tecniche che provengono dal mondo dell ingegneria informatica (reti neurali, alberi di decisione, regole di inclusione) Interessi commerciali nel valorizzare le informazioni esistenti al fine di proporre soluzioni individuali per una determinata categoria di clienti Disponibilità di nuovi pacchetti, di facile uso, diretti sia a coloro i quali devono assumere le decisioni che agli analisti (ma molto piùcostosi!)

Data mining Il text mining Potenti tecniche sono disponibili per classificare, analizzare, e raggruppare informazioni o documenti creati con pacchetti di video scrittura Esempi Classificazione delle notizie dei giornali Raggruppare e-mail secondo argomenti prestabiliti Archiviare in automatico i documenti in base al loro contenuto Ecc.

Data mining Conclusioni Il Data mining èuna disciplina in grande crescita che si è sviluppata al di fuori della statistica nel mondo dei DBMS, principalmente per motivi commerciali. Oggi il DM si può considerare come una branca della statistica esplorativa con l obiettivo di individuare inattesi e utili modelli e regolarità nei dati mediante l uso di algoritmi classici e nuovi.

AVVERTENZE ALL USO Data mining L espressione inattesi non deve essere fuorviante: un ricercatore ha una maggiore possibilità di scoprire qualcosa di interessante se ha familiarità con i dati. L utilità delle regolarità individuate nella struttura dei dati va verificata. Le associazioni sono solo correlazioni e non implicano relazioni di causa-effetto. Non va infine dimenticato che nell applicazione di questi algoritmi ènecessario effettuare valutazioni dell incertezza e del rischio e pertanto non si può prescindere dall uso di test per la verifica della validità dei risultati ottenuti (suddividere la base di dati in sotto campioni e verificare se si ottengono gli stessi risultati).