Data mining e rischi aziendali Antonella Ferrari
La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento Data Mining Esplorazione dei dati Analisi statistica e visualizzazione Data warehouse e data mart Analisi dei cubi multidimensionali Analisi attive di Bi Estrazione di informazioni e conoscenze a partire dai dati Analisi passive di Bi Metodi statistici, sistemi di interrogazioni e reporting Fonti di dati Dati operazionali, documenti e dati esterni Fonte: Business Intelligence. Modelli matematici e sistemi per le decisioni ioni,, C. Vercellis, McGraw Hill,, 2006. 2
Il data mining è Il processo di esplorazione e analisi di grandi quantità di dati avente lo scopo di scoprire conoscenza, nuovi fatti, correlazioni, regolarità utili nella presa di decisioni 3
Il data mining, la statistica classica e gli strumenti Olap Olap Estrazione di dettagli e totali aggregati dai dati Informazione Distribuzione dei redditi di chi richiede mutui Statistica Verifica di ipotesi formulate da analisti Validazione Analisi di varianza dei redditi di chi richiede mutui Data mining Identificazione di regolarità e ricorrenze nei dati Conoscenza Caratterizzazione di chi richiede mutui e predizione di chi li richiederà in futuro Fonte: Business Intelligence. Modelli matematici e sistemi per le decisioni ioni,, C. Vercellis, McGraw Hill,, 2006. 4
Il data mining, la statistica classica e gli strumenti Olap Analisi statistiche Preventiva formulazione di un ipotesi che in seguito si cerca di confermare in base all evidenza campionaria Analisi Olap Criteri di estrazione, reporting e visualizzazione basati su ipotesi formulate Entrambi forniscono elementi a conferma o a smentita delle ipotesi formulate Approccio di analisi di tipo top-down 5
Il data mining, la statistica classica e gli strumenti Olap Modelli di data mining Predizioni e interpretazioni che costituiscono nuova conoscenza Approccio di analisi di tipo bottom-up Apprendimento dai dati 6
Apprendimento dai dati Gli algoritmi imparano dai dati, sono quindi adattabili, cioè possono essere impiegati anche quando le condizioni cambiano Inoltre sono in grado di fornire buone risposte a fronte di dati rumorosi (errori o anomalie per eventi straordinari, ) 7
Obiettivo del data mining Capire il fenomeno (Apprendere dall esperienza passata) Prevedere il fenomeno (Ampliare l orizzonte) l Ieri Oggi Domani Un ponte tra il passato e il futuro 8
Dal dato alla conoscenza Dati Selezione Dati di target Preparazione Dati trasformati Data mining Patterns Interpretazione/ Valutazione Fonte: Advances in knowledge discovery and data mining, U. M.Fayyad, G.Piatetsky-Shapiro Shapiro,, P. Smyth,, R. R.Uthurusamy,, AAAAI Press / The MIT Press, 1996. Conoscenza 9
Dal dato alla conoscenza Processo interattivo e iterativo,, strutturato in diverse fasi: 1. Identificazione del problema, tenendo conto della relativa conoscenza già acquisita in precedenza e degli obiettivi che si vogliono perseguire 2. Selezione dell insieme dei dati, oggetto del processo di estrazione (scoperta) della conoscenza 3. Pulizia e normalizzazione dei dati attraverso, ad esempio, l eliminazione l dei dati rumorosi (noise( noise) ) e dei valori estremi (outlier( outlier), la gestione dei campi vuoti (missing values field) 10
Dal dato alla conoscenza Processo interattivo e iterativo,, strutturato in diverse fasi: 4. Individuazione delle caratteristiche salienti per rappresentare il fenomeno che si sta analizzando in funzione dell obiettivo definito 5. Scelta del cosiddetto data mining task,, cioè il tipo di analisi sui dati da effettuare (classificazione, previsione, ) 6. Scelta delle tecniche di data mining da impiegare per ricercare i pattern nei dati 11
Dal dato alla conoscenza Processo interattivo e iterativo,, strutturato in diverse fasi: 7. Svolgimento del data mining, cioè si compie la ricerca dei pattern d interessed 8. Interpretazione dei pattern scoperti con la possibilità di ritornare alle fasi precedenti per ulteriori iterazioni 9. Consolidamento e formalizzazione della conoscenza acquisita (realizzazione/integrazione di un sistema applicativo, redazione di documentazione, presentazione alle parti interessate, ) 12
Tipologia di problemi Classificazione/Valutazione Paziente A Paziente B t0 Previsione Paziente A Paziente B t1 Segmentazione Cluster A Cluster B Cluster C 13
Tipologia di apprendimento Apprendimento supervisionato Input Output Info Cliente XXX Info Cliente YYY Cliente Classe A Cliente Classe B Apprendimento non supervisionato Solo Input Cluster A Clienti Cluster B Cluster C 14
Alcune tecniche Apprendimento supervisionato Alberi decisionali Reti neurali * Apprendimento non supervisionato Regole associative Algoritmi di clustering 15
Reti neurali Tecnica di apprendimento che vuole essere il tentativo di imitare il cervello umano nella sua struttura di miliardi di neuroni interconnessi attraverso le sinapsi e nel suo funzionamento Essa è impiegata per la risoluzione di problemi in cui sono richieste capacità di riconoscimento,, di classificazione o di previsione 16
Alberi decisionali Tecnica di apprendimento per la risoluzione di problemi di classificazione e di previsione Essa genera regole del tipo se allora che consentono di capire il processo che ha portato a un certo risultato 17
Regole associative Tecnica che consente di estrarre informazioni sulla base della concomitanza del verificarsi di certi eventi Essa è spesso associata alla market basket analysis,, una tecnica impiegata per scoprire le relazioni o le correlazioni tra un insieme di prodotti (paniere o basket) 18
Algoritmi di clustering Gli algoritmi di clustering esplorano i dati al fine di individuare caratteristiche comuni che consentano di suddividerli in gruppi omogenei (cluster) I dati vengono raggruppati sulla base delle somiglianze e affinità che presentano 19
Differenze nelle tecniche Accuratezza versus comprensibilità Alto Alberi decisionali Livello di facilità di comprensione Algoritmi di clustering Regole associative Basso Reti neurali 20
Ambiti applicativi Rischio frodi perpetrate attraverso l uso l di carte di credito o Sim telefoniche Rischio frodi assicurative Rischio di credito Rischio di abbandono Rischi legati alla diagnostica medica Rischi legati a processi produttivi di diversa natura Rischi legati all It Governance (controllo, sicurezza, integrità dei dati, ) 21
Altri campioni (set) Altri campioni (set) Altre tecniche Altre tecniche 22 L ambiente ad hoc di data mining Definizione set/modelli Dati Scelta tecnica Quali Addestra- mento Raccolta Valutazione modelli Nuovi dati Nuovi dati Verifica, analisi e pulizia Altre variabili derivate Scelta miglior modello Pre- elaborazione A. Ferrari Dati scorretti o incongruenti Se non disponibili
Flusso operativo Database X Codice CLIENTE Caratteristiche individuate dal modello Codice CLIENTE Cluster di appartenenza Database X Datamart X Cluster di appartenenza da definire Modello di clustering Datamart X DWH X DWH X Tabella CLIENTI Tabella CLIENTI.. Report 23
Data mining e Edp auditing Il data mining come strumento a supporto dell attivit attività di Edp Auditing Il data mining come sistema informativo oggetto di attività di Edp Auditing 24
Grazie! antonella.ferrari@economia.univr.it 25