e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca gli studi della Statistica, del Machine Learning, del Data Management, del Pattern Recognition, dell Intelligenza Artificiale e di altre aree. è essenzialmente una disciplina applicata che richiede una profonda comprensione della Statistica e della Programmazione dei calcolatori elettronici (computer science) => Statistica Computazionale 1
Knowledge Discovery in Database è collocato in un ampio contesto di scoperta della conoscenza in databases: Knowledge Discovery in Databases or KDD - processo in fasi: 1. si parte da uno o più database operativi per costruire uno strategico o DWS (si definiscono le unità e le variabili si pone attenzione alla qualità dei dati) 2. Sul DWH si possono applicare strumenti di analisi statistica descrittiva -es. OLAP- su variabili individuate in precedenza (si costruiscono tabelle a tre vie per evidenziare relazioni note tra le variabili) 3. DM è la fase di analisi dei dati volta alla esplorazione/scoperta di informazioni interessanti, specifiche estratte dal DWH : A KDD Process Per Data Mining si intende il processo di organizzazione selezione, esplorazione e analisi di grandi masse di dati, al fine di scoprire «strutture» o relazioni nei dati non note a priori, allo scopo di ottenere un risultato chiaro e utile al proprietario del data base. The non-trivial extraction of implicit, previously unknown, and potentially useful information from data 2
L intero processo KDD è un processo interattivo tra l utente, il software utilizzato e gli obiettivi, che devono essere costantemente inquadrati, ed iterativo nel senso che la fase di DM può prevedere un ulteriore trasformazione dei dati originali o un ulteriore pulizia dei dati, ritornando di fatto alle fasi precedenti. : A KDD Process 3
Dai dati alla conoscenza Informazioni strutturate e conoscenza Data Warehouse Decision Support System (DSS) OLAP Il DWH è un database strategico di dati storici ed integrati, si costruisce aggregando, in maniera progressiva, diversi database On line Analytical Processing è una forma di utilizzo del DWH, si basa su interrogazione (query) e sintesi (report) di un DWH per una analisi descrittiva e confermativa dei dati. Struttura = Ipercubo di dati Utilizzo del DWH per Attività di elaborazione e di analisi - esplorative e predittive - di grandi raccolte di dati allo scopo di estrarre informazioni utili Data WareHouse Data Warehouse: fonte magazzino dei dati storici, dal quale si possono estrarre database tematici di interesse Data MART: database tematici di interesse costruiti incrociando diversi data base aziendali 4
OLAP e Data Warehouse: Drill-down & Roll-up OLAP=>Report a tre vie Oggi il data mining (letteralmente: estrazione di dati) ha una duplice valenza: -Estrazione di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; -Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi. Un pattern indica una struttura relazionale tra i dati che può essere espressa da un modello. Il risultato di tale processo è una quantità a volte piccola, comunque molto preziosa, di informazioni. L informazione ottenuta può essere tramutabile in azioni commerciali allo scopo di ottenere un vantaggio di business e aumentare la profittabilità. 5
e Business Intelligence : processo di Busines Intelligence volto all utilizzo di quanto fornito dalla tecnologia dell informazione per supportare le decisioni aziendali. Tradurre le esigenze di Business in una problematica da analizzare Reperire il database necessario per l analisi Scelta ed applicazione di una tecnica statistica implementata in algoritmi di programmazione informatica Produzione di risultati rilevanti per prendere una decisione strategica!! 1. Definizione degli obiettivi dell analisi: Chiara esplicitazione degli obiettivi aziendali tradotti in obiettivi di analisi delle variabili presenti nel database 2. Organizzazione dei dati: selezionare i dati necessari per l analisi, estrazione dei data mart. l analisi statistica=> analisi di dati primari, 3. il data mining =>analisi di dati secondari, raccolti per scopi differenti da quelli dell analisi. In ambito statistico i dati possono avere anche natura sperimentale, nel data mining i dati hanno tipicamente una natura osservata 4. Analisi dei dati: Analisi esplorativa: esplorare le relazioni e tra le variabili e tra le unità statistiche. Obiettivo: Visualizzazione del pattern dei dati Modello statistico: modello funzionale che dipende del problema oggetto di studio nonché del tipo di dati disponibili. Obiettivo: Previsione e spiegazione di una più variabili in funzione di altre variabili. 6
5. Interpretazione dei risultati 6. Valutazione dei metodi statistici: scelta del modello migliore di analisi dei dati, confronto dei risultati ottenuti con i diversi metodi considerando i vincoli di business sia in termini di risorse che di tempo oltre alla qualità e disponibilità dei dati. 7. Impiego nei processi decisionali: integrazione dei risultati nei processi decisionali aziendali. Obiettivo: piena integrazione del data mining con le altre attività di supporto alle decisioni. Avere una conoscenza non superficiale dei metodi utilizzati è essenziale per almeno tre considerazioni: di analisi 1. Per poter scegliere il metodo (strumento) adatto 2. Per poter interpretare i risultati prodotto dagli algoritmi di calcolo usati nelle analisi/tecniche/ metodi o modelli statistici 3. per valutare l output del calcolatore in termini della sua attendibilità/affidabilità/significatività 7
Fig. 2.1: Ill : uno strumento a supporto del CRM e della Customer Satisfaction Applicazioni del Customer relationship management: individuazione di gruppi omogenei di clienti in termini di comportamenti/atteggiamenti e delle caratteristiche sociodemografiche (analisi degli scontrini di spesa per seguire il comportamento dei clienti magari in possesso di carta fedeltà ). Valutazione dell efficacia delle promozioni: quantità vendute in funzione delle promozioni applicate nei vari negozi Market basket analysis: individuazione delle associazioni tra dati di vendita Telecomunicazioni: dati relativi a milioni di chiamate per l analisi del comportamento dei consumatori Benchmarking finanziario: metodologie previsive per i rendimenti delle attività finanziarie Credit scoring: decidere se concedere o meno un prestito in base allo score del richiedente Web data: analisi dei dati di visita ad un sito web DNA microarray analisi della sequenza di migliaia di valori numerici associati alla struttura del DNA.. CRM ll : uno strumento a supporto del CRM Perché le vendite sono calate nel corso dell ultimo anno?, Che pattern di comportamento seguono i miei clienti?, Quali sono i clienti che aderiranno ad una iniziativa commerciale?. 8
L infrastruttura tecnologica di una strategia di CRM Tools di MARKETING INTELLIGENCE ANALYTIC APPLICATIONS Back-office Front-office Sist. gest.li Tradiz. Ammin. (SDO) Altre fonti esterne Extra cont. Customer Warehouse Fonti esterne CRM analitico Sistemi Marketing operativo Sistemi di erogazione del servizio Sistemi di Customer Service Dalla figura emerge con chiarezza la possibilità di suddividere l insieme delle soluzioni applicative CRM in due macro-arie: la prima, costituita dall insieme delle applicazioni di backoffice a sostegno del CRM analitico, la seconda rappresentata dalle soluzioni di front-office a sostegno del CRM gestionale. di Passa Parola Esp.Passate Media tradizionali Coupon, cataloghi URP: telef.it call center, Posta elettronica Internet CRM operativo Custom er Interact ion Chann els (Push & Pull) 9