Dipartimento di Economia Seconda Università di Napoli. Dispensa didattica. Data Mining. Lombardo R. Lombardo R.

Transcript

1 Dipartimento di Economia Seconda Università di Napoli Dispensa didattica Data Mining Lombardo R. Lombardo R.

2 Cos é il Data Mining? Premessa Il Data Mining è un processo di analisi dei dati da diverse prospettive per la scoperta di relazioni e di informazioni sconosciute e potenzialmente utili presenti all interno di grandi database. Tecnicamente il Data Mining è un processo che ricerca pattern in grandi database relazionali. Un pattern indica una struttura relazionale tra i dati che può essere espressa da un modello. Il risultato di tale processo è una quantità a volte piccola, comunque molto preziosa, di informazioni. L informazione risultante viene messa in circolo con tutti gli altri dati per poter essere utilizzata più volte e per creare altra informazione. Così l informazione ottenuta può essere tramutabile in azioni commerciali allo scopo di ottenere un vantaggio di business per aumentare redditi, e/o ridurre i costi in impresa. Oggi il data mining (letteralmente: estrazione di dati) ha una duplice valenza: Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi. I concetti di informazione e di significato dei dati sono legati strettamente al dominio applicativo in cui si esegue data mining, in altre parole un dato può essere interessante o trascurabile a seconda del tipo di applicazione in cui si vuole operare. L attività di estrazione/esplorazione è cruciale in molti ambiti della ricerca scientifica, soprattutto in alcuni settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche spesso diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all'individuazione di comportamenti fraudolenti, per finire all'ottimizzazione di siti web. L esigenza delle aziende di essere efficienti ed efficaci nella conduzione del business cresce di pari passo con il progredire della competizione, della tecnologia e della dinamicità dell ambiente. E evidente che la possibilità di accedere ad ampie basi di dati, (formatesi nel corso degli anni di attività o provenienti da fonti esterne, riguardanti diversi aspetti dell attività aziendale) e la conoscenza degli strumenti di analisi dei dati possano fornire una nuova risposta alle esigenze ed agli obiettivi del management. La statistica si è da sempre occupata della costruzione di metodologie per l analisi dei dati. Tuttavia i metodi statistici vengono solitamente sviluppati in relazione ai dati in esame e secondo un paradigma concettuale di riferimento. Sebbene ciò abbia reso i numerosi metodi statistici coerenti e rigorosi, ne ha limitato la capacità di fronteggiare, in tempi rapidi, le richieste metodologiche avanzate dagli sviluppi della tecnologia dell informazione e dallo sviluppo delle applicazioni di apprendimento automatico. Questo ha fatto si che anche gli statistici hanno volto la loro attenzione al data mining, e ciò non può che costruire un importante fattore di rigore e sviluppo della disciplina.

3 Per lungo tempo gli statistici hanno attribuito al DM un accezione negativa. Tale accezione trae origine da due principali critiche. In primo luogo, viene contestato che nel DM non vi è un unico modello teorico di riferimento, ma numerosi modelli in competizione, che vengono selezionati sulla base dei dati in esame. La critica a questo modo di procedere risiede nel fatto che è sempre possibile trovare un modello, sebbene complesso, che si adatta ai dati estremamente bene. In secondo luogo, si contesta che l abbondanza di dati a disposizione possa indurre erroneamente a trovare nei dati delle relazioni inesistenti. Sebbene queste critiche siano da tenere in debita considerazione, e da rilevare che, in primo luogo, le moderne tecnologie di DM prestano particolare attenzione al concetto di generalità dei risultati: ciò implica che, nella scelta di un modello, si tenga in debito conto la capacità previsiva e, quindi, vengano penalizzati i modelli più complessi. In secondo luogo, è difficile disconoscere che molti risultati di interesse per un applicazione non sono noti a priori e, come tali, non quantificabili in un ipotesi di ricerca. Questo accade, in modo molto particolare, in presenza di data base di grandi dimensioni. Vi sono numerosi aspetti che differenziano l analisi statistica dei dati dal data mining. Anzitutto mentre l analisi statistica si occupa tipicamente di analisi di dati primari, raccolti allo scopo di verificare determinate ipotesi di ricerca, il data mining si può anche occupare di dati secondari, raccolti anche per scopi differenti da quelli dell analisi. Inoltre, mentre in ambito statistico i dati possono avere anche natura sperimentale, nel data mining i dati hanno tipicamente natura osservazionale 2. In secondo luogo, il data mining si occupa tipicamente dell analisi di grandi masse di dati. Un altra distinzione riguarda le caratteristiche di molti data base. Non tutti infatti sono riconducibili alle forme classiche di organizzazione dei dati della statistica. Ciò vale, per esempio, per i dati provenienti dall accesso ad Internet. Ciò implica lo sviluppo di metodologie di analisi appropriate. 2 Con riferimento alla distinzione appena descritta, alcuni autori (Berry e Linoff, 1997) distinguono due approcci di analisi nel data mining, differenziando fra analisi top-down (confermative) e bottom-up (esplorative). Nel primo caso si tratta di utilizzare la statistica come guida per l'analisi dei dati, cercando di tr ovare conferme a fatti che l'utente ipotizza o già conosce, o per migliorare la comprensione di fenomeni parzialmente conosciuti. In quest'ambito vengono utilizzate le statistiche di base, che permettono di ottenere descrizioni brevi e concise del dataset, di evidenziare interessanti e generali proprietà dei dati; è anche possibile l'utilizzo di tecniche statistiche tradizionali come, ad esempio, la regressione. Tuttavia, un approccio di tipo top-down limita i compiti del DM ad un DM di tipo descrittivo. La sola descrizione dei dati non può fornire quelle informazioni di supporto alle decisioni, cui si fa costantemente riferimento quando si parla di potenzialità del DM. Di conseguenza, un approccio al DM di tipo bottom-up, nel quale l'utente si mette a scavare nei dati alla ricerca di informazioni che a priori ignora, risulta di gran lunga più interessante. Questo secondo approccio conduce ad un DM di tipo previsivo in cui si costruisce uno o più set di modelli, si effettuano delle inferenze sui set di dati disponibili e si tenta, di prevedere il comportamento di nuovi dataset. Questo secondo approccio è tipico del data mining. Tuttavia questi due approcci sono tra di loro complementari. Infatti quanto ottenuto con un approccio "bottom-up", sebbene identifichi relazioni e tendenze importanti, non può però spiegare perché e fino a che punto tali scoperte sono valide e utili. Gli strumenti confermativi, dell'approccio "top-down" possono pertanto intervenire per convalidare le scoperte fatte e garantire decisioni corrette. 3

4 Un ultima importante distinzione è che i risultati del data mining devono essere rilevanti: ciò implica una costante attenzione alla valutazione dei risultati economici ottenuti con i modelli di analisi dei dati 3. In termini generali, ciò che distingue l attività di DM dall analisi statistica comunemente intesa non è solamente la mole di dati su cui vengono effettuate le elaborazioni, così come nemmeno la disponibilità di un numero rilevante di tecniche, quando l orientamento verso le esigenze aziendali e la possibilità di operare in un ambiente predisposto per l integrazione di contributi tecnici e conoscenze di business. Nonostante in molti ritengono che il DM non sia nulla di nuovo dal punto di vista statistico ciò è stato smentito dall evolversi di tale processo. La novità offerta dalla nuova tecnologia e dal DM non sta nel rinnegare il tipo tradizionale di conoscenza, che rimane fondamentale, ma nell integrare i processi decisionali con regole costruite sintetizzando complessi ed estesi patrimoni informativi. Nel contesto aziendale, l utilità del risultato si traduce in un risultato di business e, pertanto, ciò che distingue il data mining da una mera analisi statistica, non è tanto la quantità di dati che vengono analizzati o le particolari tecniche che vengono impiegate, quanto la necessità di operare in una modalità in cui la conoscenza delle caratteristiche del database, la metodologia di analisi e le conoscenze di business devono essere integrate. Fare data mining significa, infatti, seguire un processo metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l analisi, fino all implementazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica. Tale decisione, a sua volta, comporterà nuove esigenze di misurazione e, quindi, nuove esigenze di business, facendo ripartire quello che è stato definito il circolo virtuoso della conoscenza indotto dal data mining 17. Anche se ad una prima analisi il data mining può avere delle analogie con l Olap, in realtà tale attività non può essere confusa con quella volta alla realizzazione di strumenti di reportistica multidimensionale. Diversamente dall Olap, il data mining combina in modo multivariato tutte le variabili a disposizione. Permette inoltre di andare oltre la visualizzazione dei riassunti presenti nelle applicazioni Olap, formulando modelli funzionali all attività di business. Il data mining non si esaurisce nell attività di analisi dei dati, bensì in un processo più complesso, in cui l analisi dei dati è solo uno degli aspetti. L Olap permette di estrarre informazioni utili dai database aziendali ma, diversamente dal data mining, le ipotesi di ricerca vengono suggerite e non scoperte nei dati. Inoltre, l estrazione viene effettuata in modo puramente informatico, senza avvalersi degli strumenti di modellazione e di sintesi forniti dalla metodologia statistica. Pertanto, sebbene l Olap possa dare indicazioni utili per database con un numero limitato di variabili, i problemi diventano insormontabili quando il numero delle variabili da analizzare simultaneamente cresce e raggiunge l ordine delle decine o delle centinaia. Diventa sempre più dispendioso e difficile in termini di tempo trovare una buona ipotesi e analizzare il database con gli strumenti di Olap per confermarla o smentirla. Risulta quindi più utile ricorrere alle tecniche di DM che liberano l utente da compiti specifici, dal 3 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill Berry e Linoff, 1997

5 momento che in tale ambito non si utilizzano più strumenti di Query e Olap, ma tecniche derivate dalla statistica e dall intelligenza artificiale. In definitiva, l Olap non è un sostituto del data mining, ma anzi, le due tecniche di analisi sono complementari e il loro impegno congiunto può produrre utili sinergie. L Olap può essere impiegato nelle fasi preliminari del data mining (pre-processing), agevolando la comprensione dei dati: per esempio permettendo di focalizzare l attenzione sulle variabili più importanti, identificando i casi particolari o trovando le interazioni principali. Solo dopo aver utilizzato le tecniche Olap per individuare cosa sta succedendo verrà utilizzato il DM che indicherà il perché di un dato fenomeno. D altra parte, i risultati finali dell attività data mining, riassunti da opportune variabili di sintesi, possono a loro volta essere convenientemente rappresentati in un ipercubo di tipo Olap, che permette una comoda visualizzazione 18. E quindi evidente che gli strumenti Olap rappresentano una base di partenza, ma non sono in grado di fornire lo stesso contributo informativo delle tecniche di DM. Tuttavia l esempio dimostra come le tecniche di Olap e DM siano tecniche complementari piuttosto che alternative. Altre Definizioni di Data Mining La difficoltà di trovare una definizione precisa di DM si accompagna, come già accennato in precedenza, ad un uso improprio del termine, confondendolo con tutta una serie di altre tecniche o metodologie. Le differenze con la statistica classica ad esempio si possono riassumere nella non necessità di ipotesi sui dati per lo sviluppo di modelli e di analisi sui fenomeni studiati. A volte sotto il termine DM vengono inclusi reportistica, il ricorso a query su database e la costruzione di grafici per ottenere indicazioni riassuntive dei dati che si analizzano. Quelli appena citati sono strumenti di cui ci si può servire in fase preliminare nel corso di un analisi per avere un idea delle variabili a disposizione, ma si discostano decisamente dal concetto alla base del DM: la scoperta di conoscenza guidata dai dati. Tutte le tecniche descritte prevedono ipotesi da parte di chi svolge l analisi facendo si che query o conteggi vengono effettuati sulla base di idee che ne guidano la realizzazione. Il DM, con cui a volte vengono confusi l OLAP e altre tecniche di visualizzazione avanzata ha come scopo quello di capire il perché e non il come delle cose e portare quindi conoscenza di valore più elevato. La costruzione di report di vendita ad esempio prevede ipotesi forti, delimitando in modo deciso l informazione che si richiede: Quanto è stato venduto nel corso dell anno passato?, Quanto è stato venduto nell area X il mese scorso?, Quali clienti hanno mostrato irregolarità nei pagamenti?. Per la risposta a queste quattro domande si ricorre a strumenti di reportistica, query o OLAP. Le risposte a queste domande sono numeri, conteggi, liste di prodotti che hanno la caratteristica di dover essere semplicemente estratti. Perché le vendite sono calate nel corso dell ultimo anno?, Che pattern di comportamento seguono i miei clienti?, Quali sono i clienti maggiormente a rischio di mancato pagamento?, Quali sono i clienti che aderiranno ad una iniziativa commerciale?. E chiaro come a queste quattro domande non sia possibile rispondere con i classici strumenti di analisi. Come si potrebbero impostare delle query e soprattutto 18 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill 2001 pag.4, 5 5

6 come si potrebbero fare valutazioni su possibilità di eventi futuri? E in questi contesti che entra in gioco il DM. Una caratteristica fondamentale del DM è quella di mirare al conseguimento di nuova conoscenza spesso senza alcuna ipotesi preventiva. Nelle analisi di DM ad esempio non si formulano ipotesi forti sulle distribuzioni delle variabili impiegate o sull indipendenza delle diverse popolazioni oggetto di studio, contrariamente a quanto avveniva e avviene invece in molte applicazioni della statistica classica. L approccio del DM alla ricerca di nuova conoscenza non è rigido. Parlando di DM non si ha in mente uno schema fisso di azioni da intraprendere, una serie di operazioni da compiere sui dati indipendentemente dall analisi che si sta svolgendo o dal contesto in cui ci si sta calando. Fig. 1 Differenze concettuali tra analisi convenzionali e analisi di Data Mining Fonte: L essenza del DM è l adozione di un processo flessibile in cui passi avanti sono accompagnati da passi nella direzione opposta. Questo significa che è spesso necessario tornare a fasi di preparazione dei dati, a volte è necessario rivedere anche le idee che hanno spinto all analisi e riformulare le premesse da cui si è partiti. Nella fase di costruzione di modelli predittivi non viene sviluppata un unica soluzione, ma diversi modelli vengono testati, migliorati, confrontati. Solo dopo una serie di valutazioni sull efficacia e i costi delle diverse alternative si può decidere quale sia il modello finale e questa scelta può non essere facile ed immediata. Il DM risulta sicuramente essere uno strumento dalle grosse potenzialità, tuttavia bisogna fare attenzione a non sopravvalutarlo. Non è assolutamente detto che l applicazione di metodi di DM in un contesto aziendale possa risolvere problemi specifici con una certa facilità e con costi contenuti. Il DM è infatti una tecnica di frontiera, difficilmente esso risolve grossi problemi, piuttosto aiuta ad individuare piccoli particolari, che in un contesto altamente competitivo, quale quello attuale, possono fare la differenza per le organizzazioni che ne fanno uso. Quale che sia il campo di applicazione, il DM non elimina il bisogno di conoscere alla perfezione il settore in cui si opera, di capire i dati che si hanno a disposizione e di capire il funzionamento dei metodi analitici usati; esso può

7 assistere i manager nel trovare modelli e relazioni nei dati, ma questi modelli devono essere costantemente verificati nel mondo reale. Verso il Data Mining: le fasi del processo di KDD Il termine DM è spesso citato in letteratura anche come Knowledge Discovery in Databases (scoperta della conoscenza dei dati contenuti nei database). In realtà esiste una differenza tra i due concetti in quanto il DM è ritenuto la fase più importante dell intero processo di KDD anche se è proprio questa preminenza che rende sempre più difficile, soprattutto in termini pratici, distinguere il processo di KDD dal DM. Gli stadi che caratterizzano un processo KDD sono stati identificati nel 1996 da Usama Fayyad, Piatetsky-Shapiro e Smyth (fig 3). Figura 2: Fasi del processo di KDD Fonte: Usama Fayyad, Piatetsky-Shapiro e Smyth Nella fig. 2 è facile individuare come il DM è solo una delle cinque fasi, sotto indicate, di cui il KDD si compone al fine di utilizzare come dati in input dati grezzi e fornisce come output informazioni utili ottenute attraverso le fasi di: Selezione: i dati grezzi vengono segmentati e selezionati secondo alcuni criteri al fine di pervenire ad un sottoinsieme di dati, che rappresentano il nostro target data o dati obiettivo. Risulta abbastanza chiaro come un database possa contenere diverse informazioni, che per il problema sotto studio possono risultare inutili Pre-elaborazione: spesso, pur avendo a disposizione il target data non è conveniente né, d altra parte, necessario analizzarne l intero contenuto; può essere più adeguato prima campionare le tabelle e in seguito esplorare tale campione effettuando in tal modo un analisi su base campionaria. Fanno inoltre parte del seguente stadio del KDD la fase di pulizia dei dati (data cleaning) che 7

8 prevede l eliminazione dei possibili errori e la decisione dei meccanismi di comportamento in caso di dati mancanti. Trasformazioni: effettuata la fase precedente, i dati, per essere utilizzabili, devono essere trasformati. Si possono convertire tipi di dati in altri o definire nuovi dati ottenuti attraverso l uso di operazioni matematiche e logiche sulle variabili. Inoltre, soprattutto quando i dati provengono da fonti diverse, è necessario effettuare una loro riconfigurazione al fine di garantirne la consistenza. Data Mining: ai dati trasformati vengono applicate una serie di tecniche in modo da poterne ricavare dell informazione non banale o scontata, bensì interessante e utile. I tipi di dati che si hanno a disposizione e gli obiettivi che si vogliono raggiungere possono dare un indicazione circa il tipo di metodo/algoritmo da scegliere per la ricerca di informazioni dai dati. Un fatto è certo: l intero processo KDD è un processo interattivo tra l utente, il software utilizzato e gli obiettivi, che devono essere costantemente inquadrati, ed iterativo nel senso che la fase di DM può prevedere un ulteriore trasformazione dei dati originali o un ulteriore pulizia dei dati, ritornando di fatto alle fasi precedenti. Interpretazioni e Valutazioni: il DM crea dei pattern, ovvero dei modelli, che possono costituire un valido supporto alle decisioni. Non basta però interpretare i risultati attraverso dei grafici che visualizzano l output del DM, ma occorre valutare questi modelli e cioè capire in che misura questi possono essere utili. E dunque possibile, alla luce di risultati non perfettamente soddisfacenti, rivedere una o più fasi dell intero processo KDD. Parlare di KDD e DM vuol dire mettersi in un ottica di ricerca, in una posizione in cui l obiettivo è di scoprire quello che si ammette di non sapere e non di validare quello che si ritiene corretto. Da quanto sopra detto risulta chiaro come, nell elencare e descrivere le fasi di KDD Usama Fayyad, Piatetsky Shapiro e Smyth pongono particolare attenzione allo stadio di DM, cioè a quella fase del KDD composta da tutti quegli algoritmi per l esplorazione e lo studio dei dati, ricalcando così la differenza esistente dai due concetti. Data I dati sono informazioni, numeri o testo che possono essere elaborati da un computer. I dati possono essere codificati in vario modo. Il Data Mining che lavora sul cliente, richiede che ad ogni riga (record) corrisponda un singolo cliente, che viene inteso come l unità di azione e che può fornire utili informazioni per comprendere meglio i pattern. I dati sono quindi strutturati in una serie di righe e colonne. RIGHE: unità statistiche o individui oggetto della rilevazione memorizzati in record di un database. COLONNE: Le colonne, ovvero le variabili statistiche, rappresentano i dati relativi a ciascun record. COLONNE UNARIE: è possibile che una colonna abbia un unico valore (colonne unitarie). Non offrono nessuna informazione utile che ci permetta di distinguere un record dall altro perciò una variabile di questo tipo viene ignorata dall analisi di Data Mining. La formazione di colonne unarie può essere il risultato di un analisi mirata ad uno specifico sottogruppo di clienti, il campo che definisce questo sottogruppo presenta lo stesso valore per tutti i clienti.

9 Colonne di input: impiegate come input nel modello. Colonne target: usate solo nei modelli previsionali, rappresentano le informazioni interessanti (propensione all acquisto di un determinato prodotto). Per i modelli descrittivi le colonne target non servono. Colonne ignorate: quelle che non vengono utilizzate. Queste hanno un ruolo importante nel clustering, non vengono utilizzate per la costruzione dei cluster ma la loro distribuzione all interno di essi può dare dettagli importanti o interessanti sui clienti. Colonne di identificazione: identificano univocamente i record, in genere vengono tralasciate per scopi di analisi. Colonne di peso: stabiliscono il peso da assegnare ad ogni record, per esempio per creare un campione pesato (un cliente può valere di più di un altro cliente). Colonne di costo: specifica il costo associato ad una riga. Posso attribuire così ad ogni cliente un costo. Sono dette nominali quelle variabili (colonne) alle quali non si può attribuire un ordine. Per esempio i colori non seguono nessun ordine, non si può dire che il rosso viene prima del verde. Le variabili ordinate si distinguono invece in: Ranghi: hanno un ordine ma non consentono calcoli aritmetici (basso, medio, alto). Intervalli: hanno un ordine, consentono la sottrazione ma non necessariamente la somma (per esempio per una data, ha senso chiedere quanti giorni intercorrono tra questa e un altra, ma non ha senso raddoppiarla). Valori numerici hanno un ordine e consentono qualsiasi calcolo aritmetico. I dati possono essere stringhe o numeri ma questo non significa che il primo tipo è non è ordinabile ed il secondo si. Possiamo trovare codici che contengono cifre ma che non possono essere ordinati, mentre possiamo trovare codici che contengono stringhe e che hanno un determinato ordine. Le categorie sono i valori che la variabile assume. Certe volte le categorie sono rappresentate da numeri (v. quantitative) o da espressioni letterali (v. qualitative). COLONNE DERIVATE: Le variabili derivate sono colonne non presenti in origine ma ricavate da altre variabili. Spesso esistono più variabili derivate che hanno lo stesso contenuto informativo e che identificano lo stesso pattern. Se abbiamo una variabile derivata che indica il numero totale di chiamate urbane ed interurbane, una che indica il tempo trascorso in chiamate urbane ed una che indica il tempo trascorso in chiamate interurbane e tutte e tre sono uguali a zero, allora l informazione che otteniamo è sempre la stessa, ovvero non è stata effettuata nessuna chiamata. Le variabili derivate sono spesso il risultato di una ricerca di informazioni sulle dimensioni di un record. Se volessimo calcolare la redditività media per ogni zona identificata dal CAP, dobbiamo aggregare i dati con lo stesso CAP e poi aggiungere la nuova informazione, la redditività media, usando come chiave il CAP. OUTLIER: (valori anomali) perché eccezionalmente piccoli o grandi. Che fare? 9

10 Alcuni algoritmi (alberi decisionali) non sono sensibili alla presenza degli outlier perché usano il rango delle variabili numeriche. Altri algoritmi (reti neurali) sono molto sensibili e basta la presenza di pochi valori anomali per comprometterne il funzionamento. Filtrare le righe che li contengono: potrebbe portare ad una distorsione nei dati, ma è vero anche che potrebbe essere una buona idea per non considerare gli acquisti dei non clienti: se in un supermercato ignoriamo gli acquisti che si discostano di molto dalla media significa che prendiamo in considerazione solo clienti abituali, cioè che fanno acquisti in media. Ignorare le colonne: soluzione estrema. La colonna può essere sostituita da informazioni relative alla colonna. Sostituire gli outlier: tecniche di imputazione dei valori anomali univariate (mediana) e multivariate (regressione). SERIE TEMPORALI: Le serie temporali rappresentano i dati che si ripresentano più volte a precisi intervalli di tempo. Per poter utilizzare questi dati in modo migliore è necessario normalizzarli all ultima data disponibile. Se l oggetto di studio è l abbandono, avremmo numerosi clienti che lasciano in momenti diversi. Per poter costruire un modello che descriva questi clienti è necessario riallineare i dati rispetto alla data di abbandono, prendendo in considerazione il mese finale di ciascun cliente, eliminando però la stagionalità ed altre informazioni che sono comunque recuperabili tramite l aggiunta di variabili derivate. Un esempio utile di serie temporali sono i dati relativi all uso di telefoni cellulari, sono serie temporali perché i dati vengono raccolti e analizzati mensilmente. Possiamo distinguere anche diversi tipi di clienti: Clienti stabili: il loro profilo è ogni mese lo stesso. Clienti in crescita: l uso del telefono cresce in maniera costante. Ricevitori: il loro profilo presenta solo chiamate ricevute. Mittenti: il loro profilo presenta solo chiamate in uscita. COME SI PRESENTANO I DATI E DA DOVE PROVENGONO: Nel mondo reale i dati non sono mai pronti per essere utilizzati dal Data Mining, quindi una volta raccolti bisogna trasformarli nel formato richiesto dalle tecniche che si vogliono usare. I dati per il Data Mining devono essere importati da altri sistemi (possono essere immagazzinati in database relazionali, log file, ecc.) e tutti o quasi i sistemi operazionali possono esportare dati. Sistemi operazionali: I sistemi operazionali sono tutti quei sistemi usati per far funzionare l azienda (2) 1 : Bancomat. Web server e database per e-commerce. Sistemi di fatturazione. 1 Berry & Linoff, Data Mining.

11 I sistemi operazionali sono una fonte ricchissima di dati, dati che vengono raccolti direttamente dal punto di contatto con il cliente. Non tutti i S.O. però sono in grado di raccogliere i dati e quindi l azienda dovrà rivolgersi ad altre fonti (sondaggi, profili di mercato e intuizioni) per avere a disposizione qualcosa su cui fare del Data Mining, aumentando la spesa ed ottenendo dati incompleti. I dati memorizzati sui S.O. non sono immediatamente accessibili, perché ci sono attività (per esempio la fatturazione) che hanno la precedenza sulle attività di business intelligence; i dati inoltre sono sempre sporchi. Tutti i dati che un azienda possiede sono immagazzinati in un datawarehouse e si trovano tutti in un solo posto, pronti per essere utilizzati. I datawarehouse sono database relazionali che presentano centinaia di tabelle descritte da migliaia di campi; i dati vengono inseriti nel sistema, puliti e verificati. E possibile fare del Data Mining anche senza datawarehouse, anche se questi ultimi sono una fonte utilissima di dati. Spesso i clienti sono invitati a fornire informazioni personali su di loro, questo accade per i sondaggi e le inchieste. Tutti questi dati però devono essere trattati con molta cautela perché: La gente se può non risponde alle domande. C è però un gruppo ristretto di persone che lo fanno, questi sono la minoranza e quindi non rappresentano tutta la popolazione. Le risposte possono essere non del tutto corrette, o per errori di battitura o per volontà delle persone stesse. Le inchieste condotte nel passato potrebbero non essere confrontabili con quelle più recenti, perché la popolazione di riferimento potrebbe cambiare con il passare del tempo. I dati raccolti spesso soni incompleti, perciò non sono utilizzabili come input per i modelli. Nonostante tutto però i sondaggi e le inchieste sono molto utili per avere maggiori informazioni sui clienti. I risultati possono servire per trovare un nuovo approccio alla commercializzazione di un prodotto, o per ricavare un nuovo tema per una campagna pubblicitaria. Quanti dati? Più dati ci sono e meglio è.. I dati sono sempre sporchi! (Berry & Linoff, Data Mining). La quantità di dati disponibili dipende dal rapporto tra azienda-cliente. I prospect offrono la minore disponibilità e spesso il loro elenco viene acquistato da terzi. Le campagne pubblicitarie vengono mirate secondo una divisione demografica e comunque non si sa nulla di chi riceve il messaggio promozionale finché il prospect non decide di rispondere alla campagna. Spesso quando un cliente potenziale chiede informazioni relative ad un prodotto o ad un servizio, lascia delle tracce che sono informazioni utili ed importanti, ma che spesso sono dati imprecisi ed incompleti. I dati generati dal comportamento dei clienti effettivi contengono informazioni più precise ed informazioni riguardanti i segmenti a cui appartengono. Importante infine è registrare i gruppi esposti alle diverse campagne per poter dividere chi ha effettivamente risposto da chi non ha risposto. Spesso però i dati a disposizione per costruire il modello sono troppi, per 11

12 esempio quando si usa solo la visualizzazione, perciò è fondamentale usare il campionamento per ridurre il numero dei dati. Campionamento La campionamento è il processo mediante il quale partendo dal set di dati originario arriviamo ad un insieme di dati più ristretto. Nel caso dei modelli previsionali il campione deve essere rappresentativo, cioè deve avere caratteristiche simili rispetto alla popolazione di riferimento. Per verificare se lo è effettivamente basta controllare la distribuzione del campione e metterla a confronto con quella della popolazione; se le due distribuzioni sono simili allora il campione è rappresentativo. Se dobbiamo trattare dati categorici allora un campione rappresentativo è formato dalle modalità/categorie più comuni nella popolazione (frequenze elevate), mentre se trattiamo dati numerici, la media e la deviazione standard devono essere simili. Se questo non accade allora bisogna generare un altro campione. Il Campionamento può essere di tipo probabilistico (casuale) e non probabilistico (non casuale). Per approfondimenti si consulti un manuale base di Statistica. Dati mancanti: I dati mancanti esistono per quattro motivi: 1. Valori vuoti: forniscono informazioni rilevanti; se un cliente non mette il suo numero telefonico ad esempio, questo può significare che non vuole essere disturbato. 2. Valori inesistenti: un cliente può non avere un indirizzo , in questo caso se dobbiamo costruire un modello per avere una previsione sull utilizzo futuro della posta elettronica non possiamo considerare questi clienti. 3. Dati incompleti. 4. Dati non raccolti Come possiamo trattarli? Non fare nulla: se ce ne sono pochi il modello potrebbe non risentirne. Eliminare le righe che li contengono: potremmo avere una distorsione nei dati cioè potremmo eliminare i clienti che rappresentano molto bene la popolazione di riferimento. Ignorare le colonne: applicabile se gli spazi vuoti sono pochi o in caso sostituirli con dei flag per indicare se i dati erano presenti o no. Imputare nuovi valori: possiamo sostituire i dati mancanti con il valore medio/mediano o con quello più frequente. Costruire un altro modello: possiamo segmentare i clienti in base ai dati disponibili. Valori errati: Sono tutti quei valori che non risultano validi per la colonna o che per qualche ragione sono incomprensibili. Si hanno dati errati perché questi vengono raccolti in modo non corretto, o perché vengono immessi in modo sbagliato (errori di inserimento).

13 Data Warehouses Data Warehouse: fonte magazzino dei dati storici, dal quale si possono estrarre database tematici di interesse. I database sono integrati tra loro per formare data warehouses. Data warehousing rappresenta una visione ideale di un magazzino centrale di tutti i dati di organizzazione. Modello standard per il Data Mining: CRISP-DM Nei paragrafi precedenti è stato più volte precisato che il DM non è ancora un concetto ben delimitato. Tuttavia, la sempre più forte affermazione del DM e la necessità di capire effettivamente come sfruttare l enorme capacità dello stesso, ha fatto si che la commissione europea abbia ritenuto necessario finanziare un progetto il cui obiettivo è quello di definire un approccio standard ai progetti di DM, chiamato CRISP-DM (CRoss Industry Standard Process for Data Mining). Il CRISP-DM affronta la necessità di tutti gli utenti coinvolti nella diffusione di tecnologie di DM per la soluzione di problemi aziendali. Scopo del progetto è definire e convalidare uno schema d approccio indipendente dalla tipologia di business 6. La figura 3 riassume lo schema CRISP-DM, oltre che chiarire l essenza del DM e il suo utilizzo da parte delle imprese per incrementare il loro business. Come si evince dalla figura il ciclo di vita di un progetto di DM consiste di sei fasi la cui sequenza non è rigida. E quasi sempre richiesto un ritorno indietro ed un proseguimento tra le differenti fasi. Ciò dipende dalla bontà del risultato di ogni fase, che costituisce la base di partenza della fase successiva. Le frecce indicano le più importanti e frequenti dipendenze tra le fasi. L ellisse fuori lo schema rappresenta la natura ciclica di un processo di DM il quale continua anche dopo che una soluzione è stata individuata e sperimentata. Figura 3: Fasi del CRISP-DM Fonte: is.html 6 Per maggiori informazioni sul progetto si veda l URL: is.html. 13

14 Spesso quanto imparato durante un processo di DM porta a nuove informazioni in processi di DM consecutivi. La figura 3 sintetizza le seguenti fasi: Business Understanding: è opportuno che in un progetto di DM si conosca il settore di affari in cui si opera. In questo senso il DM non deve, né può sostituire il compito dei manager tradizionali, ma solo porsi come strumento aggiuntivo di supporto alle decisioni. Non sempre il fenomeno che si vuole analizzare è di facile definizione. Infatti, mentre gli obiettivi aziendali a cui si vuole mirare sono generalmente ben chiari, le problematiche sottostanti possono risultare complesse da tradursi in obiettivi dettagliati di analisi. Una chiara esplicazione del problema e degli obiettivi che si vogliono raggiungere è il presupposto per impostare correttamente l'analisi. Questa fase del processo è sicuramente una delle più critiche, perché a seconda di quanto stabilito in essa, verrà organizzata tutta la metodologia successiva 7. Avendo chiare le idee sul settore di affari in cui si opera, si procede alla conversione di questa conoscenza di settore nella definizione di un problema di DM e quindi alla stesura preliminare di un piano prefissato per raggiungere gli obiettivi stabiliti. Data Understanding: individuati gli obiettivi del progetto di DM, ciò di cui disponiamo per il raggiungimento di tali obiettivi è rappresentato dai dati. Quindi la fase successiva prevede una iniziale raccolta dei dati e una serie di operazioni sui dati stessi che permettono di acquisire maggiore familiarità con essi, di identificare problemi nella qualità dei dati stessi, nonché scoprire le prime informazioni che a volte si possono ricavare dal semplice calcolo delle statistiche di base ( medie, indici di variabilità, ecc). E necessario, anzitutto, individuare le fonti dei dati. Solitamente si scelgono dati da fonti interne, più economiche e affidabili. Hanno inoltre il vantaggio di essere il risultato di esperienze e processi diretti dell'azienda stessa. La fonte ideale dei dati è rappresentata dal datawarehouse aziendale, un "magazzino" di dati storici non più soggetti a mutamenti nel tempo, dal quale è semplice estrarre dei data base tematici (data mart 8 ) di interesse. E chiaro inoltre come le prime due fasi siano collegate dato che rappresentano l individuazione dei fini e dei mezzi di un progetto di DM. Data preparation: tale fase copre tutte le attività che poi portano alla costruzione dell insieme di dati finale a partire dai dati grezzi e dunque dell insieme di dati cui applicare le tecniche di DM. Ottenuta la matrice dei dati (Data mart) è spesso necessario effettuare operazioni di pulizia preliminare dei dati. In altre parole, si effettua un controllo di qualità dei dati disponibili (data cleaning). Si tratta di un controllo formale per l individuazione di variabili non utilizzabili: esistenti, ma inadatte all'analisi. Ma anche di un controllo sostanziale, per la verifica del contenuto delle variabili implementate e della eventuale presenza di dati mancanti o errati. Nel caso emergesse la mancanza di elementi informativi essenziali sarà necessario rivedere la 7 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill Un data mart (database di marketing) è un database tematico, solitamente orientato all attività di marketing. Può essere considerato un archivio aziendale, contenente tutte le informazioni relative alla clientela acquisita e/o potenziale. In altri termini, si tratta di una base di dati relativi alla clientela.

15 fase di individuazione delle fonti individuandone delle nuove e/o procedendo alle opportune trasformazioni. La fase di costruzione del Data Mart delle Analisi (DMA), in termini di definizione dei soggetti logici di riferimento (clienti, territori, prodotti) e di predisposizione degli opportuni descrittori (fatti e dimensioni di analisi) è guidata dagli obiettivi di business che si intende raggiungere e si configura come propedeutica alla fase di analisi. Da ultimo, e da sottolineare che, nell'attività di data mining, è spesso opportuno impostare l'attività di analisi su un sottoinsieme dei dati a disposizione (campione). Ciò perché la qualità delle informazioni estratte da analisi complete, sull'intero datamart a disposizione, non è sempre a priori superiore di quella ottenibile mediante indagini campionarie 10. L'analisi statistica vera e propria inizia con l'attività di analisi preliminare, o esplorativa, dei dati. Si tratta di una prima valutazione della rilevanza dei dati raccolti che può condurre, eventualmente, a una trasformazione delle variabili originarie, per una miglior comprensione del fenomeno o per la sua riconducibilità a metodi statistici che poggiano sul soddisfacimento di determinate ipotesi iniziali. L'analisi esplorativa può suggerire inoltre l'esistenza di dati anomali, differenti rispetto agli altri. Questi dati anomali non vanno necessariamente eliminati perché potrebbero contenere delle informazioni preziose al raggiungimento degli obiettivi dell'analisi 11. In questa fase si pongono in essere le basi utili all analista per pervenire nella fase successiva, alla formulazione dei metodi statistici più opportuni per il raggiungimento degli obiettivi dell'analisi. Ciò naturalmente deve tener conto della qualità dei dati a disposizione, ottenuti nella fase precedente. Modelling: I metodi statistici che possono essere utilizzati sono numerosi ed è per questo che non risulta facile individuare quello giusto. E in questa fase che vengono selezionate e applicate varie tecniche che permettono di ricavare dei modelli. Determinate tecniche, per poter essere applicate, necessitano di specifiche richieste rispetto alla forma dei dati, per cui è spesso opportuno tornare indietro alla fase di preparazione dei dati per modificare il dataset iniziale e adattarlo alla tecnica specifica che si vuole utilizzare. La scelta di quale metodo utilizzare in questa fase dipende essenzialmente dal tipo di problema oggetto di studio e dal tipo di dati disponibili per l analisi 12. Questo tipo di modellistica è piuttosto tradizionale. In genere la possibilità di capire a fondo i modelli e 10 Nelle applicazioni di DM le dimensioni del database analizzato sono spesso notevoli e, pertanto, l utilizzo di un campione, ovviamente rappresentativo, permette di ridurre notevolmente i tempi di analisi ed elaborazione. Lavorando su campioni si ha l importante vantaggio di poter validare il modello costruito sulla rimanente parte dei dati, ottenendo così un importante strumento diagnostico. Infine, il vantaggio di lavorare su base campionaria consiste nel tenere sotto controllo il rischio che il metodo statistico, adattandosi anche alle irregolarità e alla variabilità propria dei dati sui quali è stimata, adattandosi alle irregolarità ed alla variabilità propria dei dati sui quali è stimata, perda capacità di generalizzazione e previsione.pertando le motivazioni che portano all estrazione di un campione rappresentativo si basano sulle seguenti considerazioni: La teoria del campione permette di tenere sotto controllo l entità dell errore campionario; I tempi di elaborazione; Disporre di più basi di confronto per la costruzione e per la scelta dei modelli di sintesi. 11 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill

16 soprattutto la trasparenza degli stessi portano ad una preferenza nel loro utilizzo rispetto ai metodi più complessi e di più difficile analisi. I metodi utilizzati possono essere classificati in base allo scopo immediato per il quale l analisi viene effettuata. In conformità a tale criterio si possono distinguere essenzialmente, quattro grandi classi di metodologie: Metodi descrittivi Questo gruppo di metodologie (denominate anche simmetriche o non supervisionate o indirette) hanno lo scopo di descrivere l'insieme dei dati, in un modo più parsimonioso. Ciò può riguardare.sia la sintesi delle osservazioni, che vengono pertanto classificate in gruppi non noti a priori (distanze, analisi di raggruppamento) sia la sintesi delle variabili, che vengono fra loro relazionate, secondo legami non noti a priori (metodi associativi, modelli log-lineari, modelli grafici). In questo tipo di metodologie, tutte le variabili a disposizione sono trattate allo stesso livello, e non si fanno ipotesi di casualità. La descrizione delle caratteristiche del database può essere complessiva (analisi globale), o peculiare, relative a sottoinsiemi di interesse del database (analisi locali). Esempi di quest'ultima tipologia di analisi includono le regole associative per l'analisi di dati transazionali, oppure l'individuazione di osservazioni anomale. Metodi esplorativi Questo primo gruppo di metodi presenta forti analogie con le tecniche di tipo OLAP. Sono metodologie interattive e, solitamente, visuali, che hanno lo scopo di trarre le prime conclusioni ipotetiche dalla massa di dati disponibili, oltre che fornire indicazioni su eventuali trasformazioni della matrice dei dati, ovvero sulla necessità di integrare o sostituire il database disponibile. L esplorazione dei dati serve per rilevare su quale sotto insieme di attributi è più opportuno lavorare per scoprire in anticipo relazioni e anomalie nei dati e per capire quali possono essere quelle di interesse. Metodi previsivi In questo gruppo di metodologie (denominate anche asimmetriche o supervisionate o dirette) l'obiettivo è spiegare una o più variabili in funzione di tutte le altre, ricercando, sulla base dei dati, delle regole di classificazione o previsione. Tali regole permettono di prevedere o classificare il risultato futuro di una o più variabili risposta o target, in funzione di quanto accade alle variabili esplicative o input. Le principali metodologie di questo tipo sono sia quelle sviluppate nell'ambito dell'apprendimento automatico, quali le reti neurali supervisionate (percettroni multistrato) e gli alberi decisionali, ma anche classici modelli statistici, quali i modelli di regressione lineare e di regressione logistica. Evaluation: prima di procedere all impiego del modello o dei modelli costruiti, è molto importante valutare il modello e i passi eseguiti per costruirlo, accertarsi che attraverso tale modello si possono veramente raggiungere obiettivi di business, capire se qualcosa di importante non è stato sufficientemente considerato nella costruzione dello stesso. La scelta del modello e, quindi della regola decisionale finale, si basa su considerazioni che riguardano il confronto dei risultati ottenuti con i diversi metodi. Indicazioni quali gli obiettivi da raggiungere ed i vincoli di business, sia in termini di budget che di tempo, concorrono alla valutazione della performance di un modello. Il rilascio di una tecnica metodologicamente ottimale potrebbe richiedere molto più del tempo effettivamente disponibile, in questi casi è preferibile perseguire soluzioni più semplici, ma in grado di fornire indicazioni più efficaci rispetto ai criteri tradizionalmente usati in azienda.

17 Quando si costruisce un modello è necessario poi valutarlo. Distinguiamo la valutazione in interna ed esterna al modello in questione. La valutazione interna è senz altro la più semplice da eseguire; qualunque sia il modello posto in essere è in genere semplice costruire degli indici che misurino l accuratezza del modello nel descrivere i dati. Nel caso del DM il processo di costruzione di modelli predittivi prevede di per sé l'adozione di un protocollo talvolta chiamato "apprendimento supervisionato" in grado di assicurare le più accurate e robuste previsioni. L'essenza di questo protocollo consiste nello stimare il modello su una parte di dati a disposizione (training s e t - campione di a p p r e n d i m e nt o ) e successivamente saggiare e, se è opportuno, validare il modello sulla base della rimanente porzione di dati (test set). Un modello è effettivamente costruito quando il ciclo di stima è concluso con la validazione di quest'ultimo. In un contesto di questo tipo disporre di una tecnologia ricca costituisce l elemento caratterizzante l attività di DM: produrre una grande quantità di modelli in modo semplice e rapido, confrontare i risultati da essi prodotti, dare una quantificazione economica della regola costruita, sono gli elementi necessari per la scelta ottimale del modello finale. Potrebbe darsi che nessuno, fra i metodi impiegati, permetta un soddisfacente raggiungimento degli obiettivi di analisi 14 ; in tale caso, si tratterà di "tornare indietro" e specificare una nuova metodologia, più opportuna per l'analisi in oggetto. Deployment: è la fase finale che prevede l utilizzo del modello o dei modelli creati e valutati che possono permettere il raggiungimento dei fini desiderati. L'attività di data mining non è semplice analisi dei dati ma integrazione dei risultati nel processo decisionale, che permettono di passare dalla fase di analisi alla produzione di un motore decisionale. Preso atto dei benefici che il data mining può apportare, diventa cruciale, al fine dell'adeguato sfruttamento delle sue potenzialità, riuscire a implementare correttamente il data mining nei processi aziendali. Il progetto di inserimento del data mining nell'organizzazione aziendale deve essere affrontato in modo graduale, ponendosi obiettivi realistici e misurando i risultati lungo il percorso. L obiettivo finale è il raggiungimento della piena integrazione del data mining con le altre attività di supporto alle decisioni, all'interno delle procedure operative dell'impresa. Per pianificare, implementare e mettere a punto con successo un progetto di data mining è necessaria una soluzione software integrata che racchiuda tutti i passi del processo analitico partendo dal campionamento dei dati, per passare alle fasi di analisi e modellazione fino alla divulgazione delle risultanti informazioni di business. Inoltre, la soluzione ideale dovrebbe essere sufficientemente user-friendly, intuitiva e flessibile da permettere a utenti con diversi gradi di esperienza in campo statistico di comprenderla e utilizzarla. Le caratteristiche che una soluzione di data mining deve avere sono: la disponibilità di un vasto repertorio di tecniche di analisi statistica classica e non, insieme a tecniche di reporting avanzate e di facile utilizzo con attività di pre- 14 Nella valutazione della performance di uno specifico metodo occorrono, oltre a misure diagnostiche di tipo statico, la considerazione dei vincoli di business, sia in termini di risorse che di tempo, oltre alla qualità e disponibilità dei dati. 17

18 processing (per esempio, selezione, trasformazione di variabili, filtraggio ecc.) e le tipiche modalità di post-pro-cessing (in particolare riguardanti la valutazione e il confronto dei modelli); una metodologia di guida all'analisi che sia sufficientemente generale e flessibile da coprire le molteplici esigenze di analisi dell'utente; la capacità di utilizzare in modo appieno e scalare la potenza di calcolo e in genere le risorse hardware disponibili, in funzione del problema da affrontare; questa possibilità è fortemente legata al supporto di tecnologie client/server e alla capacità di sfruttare il parallelismo 15. Fasi del processo di Data Mining. In generale la compilazione di un modello di data mining rientra in un processo più ampio che include tutte le fasi necessarie, dalla formulazione di domande sui dati e dalla creazione di un modello per rispondere a tali domande, alla distribuzione del modello in un ambiente di lavoro. È possibile definire tale processo suddividendolo nei sei passaggi di base seguenti: 1. Determinazione del problema di business=definizione del problema= Business Understanding il primo passo del processo di Data Mining consiste nel definire l obiettivo dell analisi. 2. Selezione ed organizzazione dei dati=preparazione dei dati= Data Understanding: una volta determinato l obiettivo di business bisogna raccogliere e selezionare i dati necessari per l analisi. 3. Analisi esplorativa dei dati= Esplorazione dei dati= Modelling:: l analisi statistica vera e propria inizia con l analisi preliminare dei dati che consiste in una prima valutazione delle variabili statistiche per una eventuale eliminazione o trasformazione. Tramite un adeguata analisi delle variabili statistiche è possibile individuare la presenza di valori anomali che non vanno necessariamente eliminati perché possono contenere informazioni utili al raggiungimento degli obiettivi del Data Mining. L analisi esplorativa può essere utile anche per individuare quali variabili sono tra loro correlate, in modo da eliminarne una, visto che le informazioni contenute sono equivalenti. 4. Convalida e Progettazione= Compilazione dei modelli = Evaluation: per prima cosa bisogna scegliere la tecnica da usare che dipende dall obiettivo dell analisi (punto1) e dai dati disponibili. Utilizziamo poi la tecnica decisa per arrivare all informazione. 5. Interpretazione dei modelli identificati = Esplorazione e convalida dei modelli analisi e verifica dei risultati con possibile retroazione ai punti precedenti per ulteriori interazioni al fine di migliorare l efficacia dei modelli trovati. 6. Consolidamento della conoscenza scoperta = Distribuzione e aggiornamento dei modelli= Deployment: integrazione della conoscenza e valutazione del sistema mettendo a confronto i risultati con l effettivo andamento della realtà e produzione della documentazione agli utenti finali oppure a terze parti interessate. Nel diagramma seguente vengono descritte le relazioni tra i vari passaggi del processo. 15 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill 2001

19 Sebbene il processo illustrato nel diagramma sia circolare, non necessariamente ogni passaggio conduce direttamente a quello successivo. La creazione di un modello di data mining è un processo dinamico e iterativo. Dopo avere esplorato i dati, è possibile scoprire che questi dati non sono sufficienti per la creazione di modelli di data mining appropriati e che pertanto è necessario cercarne altri. In alternativa, è possibile compilare diversi modelli e successivamente rendersi conto che tali modelli non consentono di risolvere in modo appropriato il problema definito, il quale deve pertanto essere ridefinito. Potrebbe inoltre essere necessario aggiornare i modelli dopo la loro distribuzione perché nel frattempo sono diventati disponibili altri dati. Potrebbe inoltre essere necessario ripetere molte volte ogni passaggio del processo per creare un modello funzionale. Definizione del problema Il primo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nel definire chiaramente il problema aziendale e nel considerare le diverse modalità per risolverlo. 19

20 Tale passaggio include l'analisi dei requisiti aziendali e la definizione dell'ambito del problema, della metrica in base alla quale verrà valutato il modello e degli obiettivi specifici per il progetto di data mining. È necessario trasformare queste attività nelle domande seguenti: Quali tipi di dati sono necessari? Quali tipi di relazioni si intende trovare? Il problema che si sta tentando di risolvere riflette i criteri o i processi aziendali? Si desidera eseguire stime in base al modello di data mining o soltanto cercare schemi e associazioni interessanti? Quale attributo del set di dati si desidera stimare? Come sono correlate le colonne? Se esistono più tabelle, che tipo di relazione esiste tra di esse? Come sono distribuiti i dati? Si tratta di dati stagionali? I dati rappresentano accuratamente i processi aziendali? Per rispondere a queste domande, potrebbe essere necessario effettuare uno studio sulla disponibilità dei dati al fine di individuare le esigenze degli utenti aziendali in relazione ai dati disponibili. Se i dati non soddisfano le esigenze degli utenti, potrebbe essere necessario ridefinire il progetto. Preparazione dei dati Il secondo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nel consolidamento e nella pulizia dei dati identificati nel passaggio Definizione del problema. I dati possono essere sparsi nell'intera azienda e archiviati in formati diversi oppure possono contenere incoerenze quali voci errate o mancanti. I dati potrebbero ad esempio indicare che un cliente ha acquistato un prodotto prima che tale prodotto fosse disponibile sul mercato o che effettua acquisti periodicamente presso un negozio situato a chilometri di distanza da casa sua.

21 La pulizia dei dati non consiste solo nella rimozione di quelli errati, ma anche nell'identificazione delle correlazioni nascoste nei dati, delle origini dati più accurate e delle colonne più appropriate per l'utilizzo nell'analisi. Ad esempio, deve essere utilizzata la data di spedizione o quella dell'ordine? Il miglior fattore di influenza sulle vendite è la quantità, il prezzo totale o un prezzo scontato? I dati incompleti, errati e gli input che appaiono separati, ma che in realtà sono fortemente correlati, possono incidere sui risultati del modello in modi non previsti. Pertanto, prima di avviare la compilazione di modelli di data mining, è necessario identificare questi problemi e stabilire come risolverli. Esplorazione dei dati Il terzo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nell'esplorazione dei dati preparati. Per prendere decisioni appropriate durante la creazione dei modelli di data mining, è necessario interpretare correttamente i dati. Tra le tecniche di esplorazione sono inclusi il calcolo dei valori minimi e massimi, il calcolo delle deviazioni media e standard e l'analisi della distribuzione dei dati. Ad esempio, analizzando i valori massimo, minimo e medio è possibile stabilire che i dati non sono rappresentativi dei clienti o dei processi aziendali e che di conseguenza è necessario ottenere dati più equilibrati o rivedere le ipotesi su cui si basano le proprie aspettative. Deviazioni standard e altri valori di distribuzione possono fornire informazioni utili su stabilità e accuratezza dei risultati. Una marcata deviazione standard può indicare che l'aggiunta di ulteriori dati potrebbe migliorare il modello. I dati con una notevole deviazione da una distribuzione standard potrebbero essere asimmetrici oppure rappresentare un'immagine precisa di un problema reale, ma rendere difficile l'adattamento di un modello ai dati. Esplorando i dati alla luce della propria conoscenza del problema aziendale, è possibile decidere se il set di dati contiene dati non validi, quindi mettere a punto una strategia per risolvere i problemi o per acquisire una comprensione più approfondita dei comportamenti tipici dell'azienda. 21

22 Compilazione dei modelli Il quarto passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nella compilazione del modello o dei modelli di data mining. Le conoscenze acquisite durante il passaggio Esplorazione dei dati verranno utilizzate per definire e creare i modelli. Dopo avere passato i dati nel modello, l'oggetto modello di data mining contiene riepiloghi e schemi su cui è possibile eseguire query che possono essere utilizzati per la stima. È importante ricordare che a ogni modifica dei dati è necessario aggiornare sia la struttura di data mining sia il modello di data mining. Esplorazione e convalida dei modelli Il quinto passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nell'esplorazione dei modelli di data mining compilati e nella verifica della relativa efficienza.

23 Prima di distribuire un modello in un ambiente di produzione, è opportuno verificarne le prestazioni. Inoltre, quando si compila un modello, in genere si creano più modelli con configurazioni diverse e si testano tutti per stabilire quale di questi produce i migliori risultati per il problema e i dati. Per verificare se il modello è specifico per i dati o se può essere utilizzato per creare inferenze sulla popolazione generale, è possibile utilizzare la tecnica statistica chiamata convalida incrociata per creare automaticamente subset dei dati ed eseguire il test del modello rispetto a ogni subset. Se nessuno dei modelli creati durante il passaggio Compilazione dei modelli risulta efficace, potrebbe essere necessario tornare al passaggio precedente del processo e ridefinire il problema o esaminare nuovamente i dati. Distribuzione e aggiornamento dei modelli L'ultimo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nella distribuzione dei modelli più efficaci in un ambiente di produzione. 23

24 Dopo la distribuzione dei modelli di data mining in un ambiente di produzione, è possibile eseguire numerose attività, a seconda delle esigenze. Tra le attività che è possibile eseguire sono incluse le seguenti: Utilizzare i modelli per creare stime, in base alle quali prendere in seguito decisioni aziendali. Creare query sul contenuto per recuperare statistiche, regole o formule dal modello. Creare un report che consenta agli utenti di eseguire direttamente le query su un modello di data mining esistente. Aggiornare i modelli dopo la revisione e l'analisi. Qualsiasi aggiornamento richiede la rielaborazione dei modelli. La pratica di aggiornare dinamicamente i modelli, parallelamente all'ingresso di ulteriori dati nell'organizzazione, e di apportare modifiche costanti per migliorare l'efficacia della soluzione deve essere parte integrante della strategia di distribuzione. APPLICAZIONI DI DATA MINING Scoring system: è un particolare approccio di analisi incentrato sull assegnazione ai singoli clienti (prospect) della probabilità di adesione ad una campagna commerciale. La finalità è quella di classificare i clienti o gli eventuali prospect in modo tale da attuare azioni di marketing diversificate a seconda dei target individuati. L obiettivo è quello di costruire un modello predittivo in modo da individuare una relazione tra una serie di variabili comportamentali ed una variabile obiettivo che rappresenta l oggetto di indagine. Il modello produce come risultato un punteggio (score) che indica la probabilità di risposta positiva alla campagna (il cliente aderisce o non aderisce alla campagna promozionale). Segmentazione della clientela: applicazione di tecniche di clustering per individuare gruppi omogenei calcolati secondo variabili comportamentali o socio-demografiche. L individuazione delle diverse tipologie permette di effettuare campagne di marketing mirate. Market basket analysis: applicazione di tecniche di associazioni a dati di vendita per individuare quali prodotti vengono acquistati insieme. Utile per la disposizione dei prodotti sugli scaffali. Data Mining per. 1. Classificare: si divide in gruppi omogenei il collettivo statistico. Per esempio si possono dividere i clienti secondo il reddito (basso, medio, alto). Esiste comunque un numero di classi già note e l obiettivo è quello di inserire ogni record (cliente) in una determinata classe. Classificare spesso significa raggruppare per affinità o regole di associazione: l obiettivo è di stabilire quali oggetti (in genere prodotti) possono abbinarsi. Si può utilizzare il raggruppamento per affinità per pianificare la produzione dei prodotti sugli scaffali o nei cataloghi in modo che gli articoli, che vengono acquistati insieme, si trovino il più possibile vicini.

25 2. Fare previsioni: spiegare una più variabili in funzione di tutte le altre. Molta importanza hanno i dati storici perché servono per costruire un modello che spieghi il comportamento futuro in base a quello passato. 3. Descrizione e visualizzazione: una descrizione efficace di uno specifico comportamento indica da dove partire per cercare una spiegazione. La visualizzazione dei dati è una forma molto efficace di Data Mining descrittivo, è molto più immediato ricavare utili informazioni da dati visivi. Il Data Mining è molto usato nel settore marketing vista la presenza di grosse quantità di dati da elaborare per ricavarne informazioni utili. Questi dati sono tutti raccolti in un database marketing e si riferiscono a tutti i potenziali clienti (prospect), di una campagna di mercato. Questi dati possono descrivere il comportamento del cliente già acquisito o possono contenere una serie di informazioni grezze di tipo demografico sui possibili clienti. Il Data Mining permette all azienda di ridurre le spese non contattando la clientela che difficilmente risponderà all offerta. È possibile applicare i modelli di data mining a scenari aziendali specifici, ad esempio: Previsioni di vendite Mailing diretti a clienti specifici Individuazione dei prodotti che probabilmente verranno venduti insieme Ricerca di sequenze nell'ordine in cui i clienti aggiungono prodotti a un carrello acquisti Applicazioni di Data Mining Ma a che cosa serve il DM in una logica di CRM e customer satisfaction? Principalmente il DM è utilizzato, in questo ambito, per profilare la clientela e, conseguentemente, definire strategie d'azione più efficienti e diverse in funzione dei profili. L analisi dei dati relativi alla clientela è probabilmente il principale ambito applicativo del DM. Si è detto, infatti, che il fine ultimo del CRM è l'instaurazione di un rapporto duraturo e biunivoco tra cliente e azienda nel tentativo di una sempre maggiore soddisfazione delle sue aspettative-preferenze. Logicamente, però, l'azienda non può offrire al singolo cliente un prodotto-servizio unico. Il processo di DM nasce proprio per cercare di definire gruppi di clienti con caratteristiche simili internamente allo stesso (ovvero con varianza minima internamente al gruppo), ma diverse tra gruppi (ovvero con varianza elevata esternamente). Ogni gruppo potrà essere rappresentato da un cliente teorico, non reale, con una scheda di preferenza simile a quella degli appartenenti al gruppo stesso. Se, ad esempio, esistono n clienti campionati e tramite un processo di DM si ricavano p gruppi, allora nascono p profili di clienti teorici. L'azienda sviluppa le decisioni di business in funzione di detti p profili, garantendosi un risultato economico migliore e una maggiore soddisfazione della propria clientela. Quest'ultima, infatti, considererà il prodotto-servizio offerto come maggiormente rispondente, alle sue esigenze, seppure non perfettamente corrispondente perché nato in funzione del cliente teorico. Tuttavia si assiste a un miglioramento rispetto alla situazione in cui un solo bene viene prodotto in base alle caratteristiche medie del gruppo 25

26 iniziale, costituito da tutti gli n individui. In questo senso, quindi, il DM apporta efficienza ed è importantissimo per qualunque piano di CRM 2. La figura 4 sintetizza in modo chiaro il legame esistente tra il DM e il CRM. Fig. 4: I ll Data Mining: uno strumento a supporto del CRM e della Customer Satisfaction Fonte: Stofella (2001), Ill DM: uno strumento a supporto del CRM 2 Farinet Ploncher Customer Relationship Management, ETAS

Vedere altro