Dipartimento di Economia Seconda Università di Napoli. Dispensa didattica. Data Mining. Lombardo R. Lombardo R.

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Dipartimento di Economia Seconda Università di Napoli. Dispensa didattica. Data Mining. Lombardo R. Lombardo R."

Transcript

1 Dipartimento di Economia Seconda Università di Napoli Dispensa didattica Data Mining Lombardo R. Lombardo R.

2 Cos é il Data Mining? Premessa Il Data Mining è un processo di analisi dei dati da diverse prospettive per la scoperta di relazioni e di informazioni sconosciute e potenzialmente utili presenti all interno di grandi database. Tecnicamente il Data Mining è un processo che ricerca pattern in grandi database relazionali. Un pattern indica una struttura relazionale tra i dati che può essere espressa da un modello. Il risultato di tale processo è una quantità a volte piccola, comunque molto preziosa, di informazioni. L informazione risultante viene messa in circolo con tutti gli altri dati per poter essere utilizzata più volte e per creare altra informazione. Così l informazione ottenuta può essere tramutabile in azioni commerciali allo scopo di ottenere un vantaggio di business per aumentare redditi, e/o ridurre i costi in impresa. Oggi il data mining (letteralmente: estrazione di dati) ha una duplice valenza: Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi. I concetti di informazione e di significato dei dati sono legati strettamente al dominio applicativo in cui si esegue data mining, in altre parole un dato può essere interessante o trascurabile a seconda del tipo di applicazione in cui si vuole operare. L attività di estrazione/esplorazione è cruciale in molti ambiti della ricerca scientifica, soprattutto in alcuni settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche spesso diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all'individuazione di comportamenti fraudolenti, per finire all'ottimizzazione di siti web. L esigenza delle aziende di essere efficienti ed efficaci nella conduzione del business cresce di pari passo con il progredire della competizione, della tecnologia e della dinamicità dell ambiente. E evidente che la possibilità di accedere ad ampie basi di dati, (formatesi nel corso degli anni di attività o provenienti da fonti esterne, riguardanti diversi aspetti dell attività aziendale) e la conoscenza degli strumenti di analisi dei dati possano fornire una nuova risposta alle esigenze ed agli obiettivi del management. La statistica si è da sempre occupata della costruzione di metodologie per l analisi dei dati. Tuttavia i metodi statistici vengono solitamente sviluppati in relazione ai dati in esame e secondo un paradigma concettuale di riferimento. Sebbene ciò abbia reso i numerosi metodi statistici coerenti e rigorosi, ne ha limitato la capacità di fronteggiare, in tempi rapidi, le richieste metodologiche avanzate dagli sviluppi della tecnologia dell informazione e dallo sviluppo delle applicazioni di apprendimento automatico. Questo ha fatto si che anche gli statistici hanno volto la loro attenzione al data mining, e ciò non può che costruire un importante fattore di rigore e sviluppo della disciplina.

3 Per lungo tempo gli statistici hanno attribuito al DM un accezione negativa. Tale accezione trae origine da due principali critiche. In primo luogo, viene contestato che nel DM non vi è un unico modello teorico di riferimento, ma numerosi modelli in competizione, che vengono selezionati sulla base dei dati in esame. La critica a questo modo di procedere risiede nel fatto che è sempre possibile trovare un modello, sebbene complesso, che si adatta ai dati estremamente bene. In secondo luogo, si contesta che l abbondanza di dati a disposizione possa indurre erroneamente a trovare nei dati delle relazioni inesistenti. Sebbene queste critiche siano da tenere in debita considerazione, e da rilevare che, in primo luogo, le moderne tecnologie di DM prestano particolare attenzione al concetto di generalità dei risultati: ciò implica che, nella scelta di un modello, si tenga in debito conto la capacità previsiva e, quindi, vengano penalizzati i modelli più complessi. In secondo luogo, è difficile disconoscere che molti risultati di interesse per un applicazione non sono noti a priori e, come tali, non quantificabili in un ipotesi di ricerca. Questo accade, in modo molto particolare, in presenza di data base di grandi dimensioni. Vi sono numerosi aspetti che differenziano l analisi statistica dei dati dal data mining. Anzitutto mentre l analisi statistica si occupa tipicamente di analisi di dati primari, raccolti allo scopo di verificare determinate ipotesi di ricerca, il data mining si può anche occupare di dati secondari, raccolti anche per scopi differenti da quelli dell analisi. Inoltre, mentre in ambito statistico i dati possono avere anche natura sperimentale, nel data mining i dati hanno tipicamente natura osservazionale 2. In secondo luogo, il data mining si occupa tipicamente dell analisi di grandi masse di dati. Un altra distinzione riguarda le caratteristiche di molti data base. Non tutti infatti sono riconducibili alle forme classiche di organizzazione dei dati della statistica. Ciò vale, per esempio, per i dati provenienti dall accesso ad Internet. Ciò implica lo sviluppo di metodologie di analisi appropriate. 2 Con riferimento alla distinzione appena descritta, alcuni autori (Berry e Linoff, 1997) distinguono due approcci di analisi nel data mining, differenziando fra analisi top-down (confermative) e bottom-up (esplorative). Nel primo caso si tratta di utilizzare la statistica come guida per l'analisi dei dati, cercando di tr ovare conferme a fatti che l'utente ipotizza o già conosce, o per migliorare la comprensione di fenomeni parzialmente conosciuti. In quest'ambito vengono utilizzate le statistiche di base, che permettono di ottenere descrizioni brevi e concise del dataset, di evidenziare interessanti e generali proprietà dei dati; è anche possibile l'utilizzo di tecniche statistiche tradizionali come, ad esempio, la regressione. Tuttavia, un approccio di tipo top-down limita i compiti del DM ad un DM di tipo descrittivo. La sola descrizione dei dati non può fornire quelle informazioni di supporto alle decisioni, cui si fa costantemente riferimento quando si parla di potenzialità del DM. Di conseguenza, un approccio al DM di tipo bottom-up, nel quale l'utente si mette a scavare nei dati alla ricerca di informazioni che a priori ignora, risulta di gran lunga più interessante. Questo secondo approccio conduce ad un DM di tipo previsivo in cui si costruisce uno o più set di modelli, si effettuano delle inferenze sui set di dati disponibili e si tenta, di prevedere il comportamento di nuovi dataset. Questo secondo approccio è tipico del data mining. Tuttavia questi due approcci sono tra di loro complementari. Infatti quanto ottenuto con un approccio "bottom-up", sebbene identifichi relazioni e tendenze importanti, non può però spiegare perché e fino a che punto tali scoperte sono valide e utili. Gli strumenti confermativi, dell'approccio "top-down" possono pertanto intervenire per convalidare le scoperte fatte e garantire decisioni corrette. 3

4 Un ultima importante distinzione è che i risultati del data mining devono essere rilevanti: ciò implica una costante attenzione alla valutazione dei risultati economici ottenuti con i modelli di analisi dei dati 3. In termini generali, ciò che distingue l attività di DM dall analisi statistica comunemente intesa non è solamente la mole di dati su cui vengono effettuate le elaborazioni, così come nemmeno la disponibilità di un numero rilevante di tecniche, quando l orientamento verso le esigenze aziendali e la possibilità di operare in un ambiente predisposto per l integrazione di contributi tecnici e conoscenze di business. Nonostante in molti ritengono che il DM non sia nulla di nuovo dal punto di vista statistico ciò è stato smentito dall evolversi di tale processo. La novità offerta dalla nuova tecnologia e dal DM non sta nel rinnegare il tipo tradizionale di conoscenza, che rimane fondamentale, ma nell integrare i processi decisionali con regole costruite sintetizzando complessi ed estesi patrimoni informativi. Nel contesto aziendale, l utilità del risultato si traduce in un risultato di business e, pertanto, ciò che distingue il data mining da una mera analisi statistica, non è tanto la quantità di dati che vengono analizzati o le particolari tecniche che vengono impiegate, quanto la necessità di operare in una modalità in cui la conoscenza delle caratteristiche del database, la metodologia di analisi e le conoscenze di business devono essere integrate. Fare data mining significa, infatti, seguire un processo metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l analisi, fino all implementazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica. Tale decisione, a sua volta, comporterà nuove esigenze di misurazione e, quindi, nuove esigenze di business, facendo ripartire quello che è stato definito il circolo virtuoso della conoscenza indotto dal data mining 17. Anche se ad una prima analisi il data mining può avere delle analogie con l Olap, in realtà tale attività non può essere confusa con quella volta alla realizzazione di strumenti di reportistica multidimensionale. Diversamente dall Olap, il data mining combina in modo multivariato tutte le variabili a disposizione. Permette inoltre di andare oltre la visualizzazione dei riassunti presenti nelle applicazioni Olap, formulando modelli funzionali all attività di business. Il data mining non si esaurisce nell attività di analisi dei dati, bensì in un processo più complesso, in cui l analisi dei dati è solo uno degli aspetti. L Olap permette di estrarre informazioni utili dai database aziendali ma, diversamente dal data mining, le ipotesi di ricerca vengono suggerite e non scoperte nei dati. Inoltre, l estrazione viene effettuata in modo puramente informatico, senza avvalersi degli strumenti di modellazione e di sintesi forniti dalla metodologia statistica. Pertanto, sebbene l Olap possa dare indicazioni utili per database con un numero limitato di variabili, i problemi diventano insormontabili quando il numero delle variabili da analizzare simultaneamente cresce e raggiunge l ordine delle decine o delle centinaia. Diventa sempre più dispendioso e difficile in termini di tempo trovare una buona ipotesi e analizzare il database con gli strumenti di Olap per confermarla o smentirla. Risulta quindi più utile ricorrere alle tecniche di DM che liberano l utente da compiti specifici, dal 3 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill Berry e Linoff, 1997

5 momento che in tale ambito non si utilizzano più strumenti di Query e Olap, ma tecniche derivate dalla statistica e dall intelligenza artificiale. In definitiva, l Olap non è un sostituto del data mining, ma anzi, le due tecniche di analisi sono complementari e il loro impegno congiunto può produrre utili sinergie. L Olap può essere impiegato nelle fasi preliminari del data mining (pre-processing), agevolando la comprensione dei dati: per esempio permettendo di focalizzare l attenzione sulle variabili più importanti, identificando i casi particolari o trovando le interazioni principali. Solo dopo aver utilizzato le tecniche Olap per individuare cosa sta succedendo verrà utilizzato il DM che indicherà il perché di un dato fenomeno. D altra parte, i risultati finali dell attività data mining, riassunti da opportune variabili di sintesi, possono a loro volta essere convenientemente rappresentati in un ipercubo di tipo Olap, che permette una comoda visualizzazione 18. E quindi evidente che gli strumenti Olap rappresentano una base di partenza, ma non sono in grado di fornire lo stesso contributo informativo delle tecniche di DM. Tuttavia l esempio dimostra come le tecniche di Olap e DM siano tecniche complementari piuttosto che alternative. Altre Definizioni di Data Mining La difficoltà di trovare una definizione precisa di DM si accompagna, come già accennato in precedenza, ad un uso improprio del termine, confondendolo con tutta una serie di altre tecniche o metodologie. Le differenze con la statistica classica ad esempio si possono riassumere nella non necessità di ipotesi sui dati per lo sviluppo di modelli e di analisi sui fenomeni studiati. A volte sotto il termine DM vengono inclusi reportistica, il ricorso a query su database e la costruzione di grafici per ottenere indicazioni riassuntive dei dati che si analizzano. Quelli appena citati sono strumenti di cui ci si può servire in fase preliminare nel corso di un analisi per avere un idea delle variabili a disposizione, ma si discostano decisamente dal concetto alla base del DM: la scoperta di conoscenza guidata dai dati. Tutte le tecniche descritte prevedono ipotesi da parte di chi svolge l analisi facendo si che query o conteggi vengono effettuati sulla base di idee che ne guidano la realizzazione. Il DM, con cui a volte vengono confusi l OLAP e altre tecniche di visualizzazione avanzata ha come scopo quello di capire il perché e non il come delle cose e portare quindi conoscenza di valore più elevato. La costruzione di report di vendita ad esempio prevede ipotesi forti, delimitando in modo deciso l informazione che si richiede: Quanto è stato venduto nel corso dell anno passato?, Quanto è stato venduto nell area X il mese scorso?, Quali clienti hanno mostrato irregolarità nei pagamenti?. Per la risposta a queste quattro domande si ricorre a strumenti di reportistica, query o OLAP. Le risposte a queste domande sono numeri, conteggi, liste di prodotti che hanno la caratteristica di dover essere semplicemente estratti. Perché le vendite sono calate nel corso dell ultimo anno?, Che pattern di comportamento seguono i miei clienti?, Quali sono i clienti maggiormente a rischio di mancato pagamento?, Quali sono i clienti che aderiranno ad una iniziativa commerciale?. E chiaro come a queste quattro domande non sia possibile rispondere con i classici strumenti di analisi. Come si potrebbero impostare delle query e soprattutto 18 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill 2001 pag.4, 5 5

6 come si potrebbero fare valutazioni su possibilità di eventi futuri? E in questi contesti che entra in gioco il DM. Una caratteristica fondamentale del DM è quella di mirare al conseguimento di nuova conoscenza spesso senza alcuna ipotesi preventiva. Nelle analisi di DM ad esempio non si formulano ipotesi forti sulle distribuzioni delle variabili impiegate o sull indipendenza delle diverse popolazioni oggetto di studio, contrariamente a quanto avveniva e avviene invece in molte applicazioni della statistica classica. L approccio del DM alla ricerca di nuova conoscenza non è rigido. Parlando di DM non si ha in mente uno schema fisso di azioni da intraprendere, una serie di operazioni da compiere sui dati indipendentemente dall analisi che si sta svolgendo o dal contesto in cui ci si sta calando. Fig. 1 Differenze concettuali tra analisi convenzionali e analisi di Data Mining Fonte: L essenza del DM è l adozione di un processo flessibile in cui passi avanti sono accompagnati da passi nella direzione opposta. Questo significa che è spesso necessario tornare a fasi di preparazione dei dati, a volte è necessario rivedere anche le idee che hanno spinto all analisi e riformulare le premesse da cui si è partiti. Nella fase di costruzione di modelli predittivi non viene sviluppata un unica soluzione, ma diversi modelli vengono testati, migliorati, confrontati. Solo dopo una serie di valutazioni sull efficacia e i costi delle diverse alternative si può decidere quale sia il modello finale e questa scelta può non essere facile ed immediata. Il DM risulta sicuramente essere uno strumento dalle grosse potenzialità, tuttavia bisogna fare attenzione a non sopravvalutarlo. Non è assolutamente detto che l applicazione di metodi di DM in un contesto aziendale possa risolvere problemi specifici con una certa facilità e con costi contenuti. Il DM è infatti una tecnica di frontiera, difficilmente esso risolve grossi problemi, piuttosto aiuta ad individuare piccoli particolari, che in un contesto altamente competitivo, quale quello attuale, possono fare la differenza per le organizzazioni che ne fanno uso. Quale che sia il campo di applicazione, il DM non elimina il bisogno di conoscere alla perfezione il settore in cui si opera, di capire i dati che si hanno a disposizione e di capire il funzionamento dei metodi analitici usati; esso può

7 assistere i manager nel trovare modelli e relazioni nei dati, ma questi modelli devono essere costantemente verificati nel mondo reale. Verso il Data Mining: le fasi del processo di KDD Il termine DM è spesso citato in letteratura anche come Knowledge Discovery in Databases (scoperta della conoscenza dei dati contenuti nei database). In realtà esiste una differenza tra i due concetti in quanto il DM è ritenuto la fase più importante dell intero processo di KDD anche se è proprio questa preminenza che rende sempre più difficile, soprattutto in termini pratici, distinguere il processo di KDD dal DM. Gli stadi che caratterizzano un processo KDD sono stati identificati nel 1996 da Usama Fayyad, Piatetsky-Shapiro e Smyth (fig 3). Figura 2: Fasi del processo di KDD Fonte: Usama Fayyad, Piatetsky-Shapiro e Smyth Nella fig. 2 è facile individuare come il DM è solo una delle cinque fasi, sotto indicate, di cui il KDD si compone al fine di utilizzare come dati in input dati grezzi e fornisce come output informazioni utili ottenute attraverso le fasi di: Selezione: i dati grezzi vengono segmentati e selezionati secondo alcuni criteri al fine di pervenire ad un sottoinsieme di dati, che rappresentano il nostro target data o dati obiettivo. Risulta abbastanza chiaro come un database possa contenere diverse informazioni, che per il problema sotto studio possono risultare inutili Pre-elaborazione: spesso, pur avendo a disposizione il target data non è conveniente né, d altra parte, necessario analizzarne l intero contenuto; può essere più adeguato prima campionare le tabelle e in seguito esplorare tale campione effettuando in tal modo un analisi su base campionaria. Fanno inoltre parte del seguente stadio del KDD la fase di pulizia dei dati (data cleaning) che 7

8 prevede l eliminazione dei possibili errori e la decisione dei meccanismi di comportamento in caso di dati mancanti. Trasformazioni: effettuata la fase precedente, i dati, per essere utilizzabili, devono essere trasformati. Si possono convertire tipi di dati in altri o definire nuovi dati ottenuti attraverso l uso di operazioni matematiche e logiche sulle variabili. Inoltre, soprattutto quando i dati provengono da fonti diverse, è necessario effettuare una loro riconfigurazione al fine di garantirne la consistenza. Data Mining: ai dati trasformati vengono applicate una serie di tecniche in modo da poterne ricavare dell informazione non banale o scontata, bensì interessante e utile. I tipi di dati che si hanno a disposizione e gli obiettivi che si vogliono raggiungere possono dare un indicazione circa il tipo di metodo/algoritmo da scegliere per la ricerca di informazioni dai dati. Un fatto è certo: l intero processo KDD è un processo interattivo tra l utente, il software utilizzato e gli obiettivi, che devono essere costantemente inquadrati, ed iterativo nel senso che la fase di DM può prevedere un ulteriore trasformazione dei dati originali o un ulteriore pulizia dei dati, ritornando di fatto alle fasi precedenti. Interpretazioni e Valutazioni: il DM crea dei pattern, ovvero dei modelli, che possono costituire un valido supporto alle decisioni. Non basta però interpretare i risultati attraverso dei grafici che visualizzano l output del DM, ma occorre valutare questi modelli e cioè capire in che misura questi possono essere utili. E dunque possibile, alla luce di risultati non perfettamente soddisfacenti, rivedere una o più fasi dell intero processo KDD. Parlare di KDD e DM vuol dire mettersi in un ottica di ricerca, in una posizione in cui l obiettivo è di scoprire quello che si ammette di non sapere e non di validare quello che si ritiene corretto. Da quanto sopra detto risulta chiaro come, nell elencare e descrivere le fasi di KDD Usama Fayyad, Piatetsky Shapiro e Smyth pongono particolare attenzione allo stadio di DM, cioè a quella fase del KDD composta da tutti quegli algoritmi per l esplorazione e lo studio dei dati, ricalcando così la differenza esistente dai due concetti. Data I dati sono informazioni, numeri o testo che possono essere elaborati da un computer. I dati possono essere codificati in vario modo. Il Data Mining che lavora sul cliente, richiede che ad ogni riga (record) corrisponda un singolo cliente, che viene inteso come l unità di azione e che può fornire utili informazioni per comprendere meglio i pattern. I dati sono quindi strutturati in una serie di righe e colonne. RIGHE: unità statistiche o individui oggetto della rilevazione memorizzati in record di un database. COLONNE: Le colonne, ovvero le variabili statistiche, rappresentano i dati relativi a ciascun record. COLONNE UNARIE: è possibile che una colonna abbia un unico valore (colonne unitarie). Non offrono nessuna informazione utile che ci permetta di distinguere un record dall altro perciò una variabile di questo tipo viene ignorata dall analisi di Data Mining. La formazione di colonne unarie può essere il risultato di un analisi mirata ad uno specifico sottogruppo di clienti, il campo che definisce questo sottogruppo presenta lo stesso valore per tutti i clienti.

9 Colonne di input: impiegate come input nel modello. Colonne target: usate solo nei modelli previsionali, rappresentano le informazioni interessanti (propensione all acquisto di un determinato prodotto). Per i modelli descrittivi le colonne target non servono. Colonne ignorate: quelle che non vengono utilizzate. Queste hanno un ruolo importante nel clustering, non vengono utilizzate per la costruzione dei cluster ma la loro distribuzione all interno di essi può dare dettagli importanti o interessanti sui clienti. Colonne di identificazione: identificano univocamente i record, in genere vengono tralasciate per scopi di analisi. Colonne di peso: stabiliscono il peso da assegnare ad ogni record, per esempio per creare un campione pesato (un cliente può valere di più di un altro cliente). Colonne di costo: specifica il costo associato ad una riga. Posso attribuire così ad ogni cliente un costo. Sono dette nominali quelle variabili (colonne) alle quali non si può attribuire un ordine. Per esempio i colori non seguono nessun ordine, non si può dire che il rosso viene prima del verde. Le variabili ordinate si distinguono invece in: Ranghi: hanno un ordine ma non consentono calcoli aritmetici (basso, medio, alto). Intervalli: hanno un ordine, consentono la sottrazione ma non necessariamente la somma (per esempio per una data, ha senso chiedere quanti giorni intercorrono tra questa e un altra, ma non ha senso raddoppiarla). Valori numerici hanno un ordine e consentono qualsiasi calcolo aritmetico. I dati possono essere stringhe o numeri ma questo non significa che il primo tipo è non è ordinabile ed il secondo si. Possiamo trovare codici che contengono cifre ma che non possono essere ordinati, mentre possiamo trovare codici che contengono stringhe e che hanno un determinato ordine. Le categorie sono i valori che la variabile assume. Certe volte le categorie sono rappresentate da numeri (v. quantitative) o da espressioni letterali (v. qualitative). COLONNE DERIVATE: Le variabili derivate sono colonne non presenti in origine ma ricavate da altre variabili. Spesso esistono più variabili derivate che hanno lo stesso contenuto informativo e che identificano lo stesso pattern. Se abbiamo una variabile derivata che indica il numero totale di chiamate urbane ed interurbane, una che indica il tempo trascorso in chiamate urbane ed una che indica il tempo trascorso in chiamate interurbane e tutte e tre sono uguali a zero, allora l informazione che otteniamo è sempre la stessa, ovvero non è stata effettuata nessuna chiamata. Le variabili derivate sono spesso il risultato di una ricerca di informazioni sulle dimensioni di un record. Se volessimo calcolare la redditività media per ogni zona identificata dal CAP, dobbiamo aggregare i dati con lo stesso CAP e poi aggiungere la nuova informazione, la redditività media, usando come chiave il CAP. OUTLIER: (valori anomali) perché eccezionalmente piccoli o grandi. Che fare? 9

10 Alcuni algoritmi (alberi decisionali) non sono sensibili alla presenza degli outlier perché usano il rango delle variabili numeriche. Altri algoritmi (reti neurali) sono molto sensibili e basta la presenza di pochi valori anomali per comprometterne il funzionamento. Filtrare le righe che li contengono: potrebbe portare ad una distorsione nei dati, ma è vero anche che potrebbe essere una buona idea per non considerare gli acquisti dei non clienti: se in un supermercato ignoriamo gli acquisti che si discostano di molto dalla media significa che prendiamo in considerazione solo clienti abituali, cioè che fanno acquisti in media. Ignorare le colonne: soluzione estrema. La colonna può essere sostituita da informazioni relative alla colonna. Sostituire gli outlier: tecniche di imputazione dei valori anomali univariate (mediana) e multivariate (regressione). SERIE TEMPORALI: Le serie temporali rappresentano i dati che si ripresentano più volte a precisi intervalli di tempo. Per poter utilizzare questi dati in modo migliore è necessario normalizzarli all ultima data disponibile. Se l oggetto di studio è l abbandono, avremmo numerosi clienti che lasciano in momenti diversi. Per poter costruire un modello che descriva questi clienti è necessario riallineare i dati rispetto alla data di abbandono, prendendo in considerazione il mese finale di ciascun cliente, eliminando però la stagionalità ed altre informazioni che sono comunque recuperabili tramite l aggiunta di variabili derivate. Un esempio utile di serie temporali sono i dati relativi all uso di telefoni cellulari, sono serie temporali perché i dati vengono raccolti e analizzati mensilmente. Possiamo distinguere anche diversi tipi di clienti: Clienti stabili: il loro profilo è ogni mese lo stesso. Clienti in crescita: l uso del telefono cresce in maniera costante. Ricevitori: il loro profilo presenta solo chiamate ricevute. Mittenti: il loro profilo presenta solo chiamate in uscita. COME SI PRESENTANO I DATI E DA DOVE PROVENGONO: Nel mondo reale i dati non sono mai pronti per essere utilizzati dal Data Mining, quindi una volta raccolti bisogna trasformarli nel formato richiesto dalle tecniche che si vogliono usare. I dati per il Data Mining devono essere importati da altri sistemi (possono essere immagazzinati in database relazionali, log file, ecc.) e tutti o quasi i sistemi operazionali possono esportare dati. Sistemi operazionali: I sistemi operazionali sono tutti quei sistemi usati per far funzionare l azienda (2) 1 : Bancomat. Web server e database per e-commerce. Sistemi di fatturazione. 1 Berry & Linoff, Data Mining.

11 I sistemi operazionali sono una fonte ricchissima di dati, dati che vengono raccolti direttamente dal punto di contatto con il cliente. Non tutti i S.O. però sono in grado di raccogliere i dati e quindi l azienda dovrà rivolgersi ad altre fonti (sondaggi, profili di mercato e intuizioni) per avere a disposizione qualcosa su cui fare del Data Mining, aumentando la spesa ed ottenendo dati incompleti. I dati memorizzati sui S.O. non sono immediatamente accessibili, perché ci sono attività (per esempio la fatturazione) che hanno la precedenza sulle attività di business intelligence; i dati inoltre sono sempre sporchi. Tutti i dati che un azienda possiede sono immagazzinati in un datawarehouse e si trovano tutti in un solo posto, pronti per essere utilizzati. I datawarehouse sono database relazionali che presentano centinaia di tabelle descritte da migliaia di campi; i dati vengono inseriti nel sistema, puliti e verificati. E possibile fare del Data Mining anche senza datawarehouse, anche se questi ultimi sono una fonte utilissima di dati. Spesso i clienti sono invitati a fornire informazioni personali su di loro, questo accade per i sondaggi e le inchieste. Tutti questi dati però devono essere trattati con molta cautela perché: La gente se può non risponde alle domande. C è però un gruppo ristretto di persone che lo fanno, questi sono la minoranza e quindi non rappresentano tutta la popolazione. Le risposte possono essere non del tutto corrette, o per errori di battitura o per volontà delle persone stesse. Le inchieste condotte nel passato potrebbero non essere confrontabili con quelle più recenti, perché la popolazione di riferimento potrebbe cambiare con il passare del tempo. I dati raccolti spesso soni incompleti, perciò non sono utilizzabili come input per i modelli. Nonostante tutto però i sondaggi e le inchieste sono molto utili per avere maggiori informazioni sui clienti. I risultati possono servire per trovare un nuovo approccio alla commercializzazione di un prodotto, o per ricavare un nuovo tema per una campagna pubblicitaria. Quanti dati? Più dati ci sono e meglio è.. I dati sono sempre sporchi! (Berry & Linoff, Data Mining). La quantità di dati disponibili dipende dal rapporto tra azienda-cliente. I prospect offrono la minore disponibilità e spesso il loro elenco viene acquistato da terzi. Le campagne pubblicitarie vengono mirate secondo una divisione demografica e comunque non si sa nulla di chi riceve il messaggio promozionale finché il prospect non decide di rispondere alla campagna. Spesso quando un cliente potenziale chiede informazioni relative ad un prodotto o ad un servizio, lascia delle tracce che sono informazioni utili ed importanti, ma che spesso sono dati imprecisi ed incompleti. I dati generati dal comportamento dei clienti effettivi contengono informazioni più precise ed informazioni riguardanti i segmenti a cui appartengono. Importante infine è registrare i gruppi esposti alle diverse campagne per poter dividere chi ha effettivamente risposto da chi non ha risposto. Spesso però i dati a disposizione per costruire il modello sono troppi, per 11

12 esempio quando si usa solo la visualizzazione, perciò è fondamentale usare il campionamento per ridurre il numero dei dati. Campionamento La campionamento è il processo mediante il quale partendo dal set di dati originario arriviamo ad un insieme di dati più ristretto. Nel caso dei modelli previsionali il campione deve essere rappresentativo, cioè deve avere caratteristiche simili rispetto alla popolazione di riferimento. Per verificare se lo è effettivamente basta controllare la distribuzione del campione e metterla a confronto con quella della popolazione; se le due distribuzioni sono simili allora il campione è rappresentativo. Se dobbiamo trattare dati categorici allora un campione rappresentativo è formato dalle modalità/categorie più comuni nella popolazione (frequenze elevate), mentre se trattiamo dati numerici, la media e la deviazione standard devono essere simili. Se questo non accade allora bisogna generare un altro campione. Il Campionamento può essere di tipo probabilistico (casuale) e non probabilistico (non casuale). Per approfondimenti si consulti un manuale base di Statistica. Dati mancanti: I dati mancanti esistono per quattro motivi: 1. Valori vuoti: forniscono informazioni rilevanti; se un cliente non mette il suo numero telefonico ad esempio, questo può significare che non vuole essere disturbato. 2. Valori inesistenti: un cliente può non avere un indirizzo , in questo caso se dobbiamo costruire un modello per avere una previsione sull utilizzo futuro della posta elettronica non possiamo considerare questi clienti. 3. Dati incompleti. 4. Dati non raccolti Come possiamo trattarli? Non fare nulla: se ce ne sono pochi il modello potrebbe non risentirne. Eliminare le righe che li contengono: potremmo avere una distorsione nei dati cioè potremmo eliminare i clienti che rappresentano molto bene la popolazione di riferimento. Ignorare le colonne: applicabile se gli spazi vuoti sono pochi o in caso sostituirli con dei flag per indicare se i dati erano presenti o no. Imputare nuovi valori: possiamo sostituire i dati mancanti con il valore medio/mediano o con quello più frequente. Costruire un altro modello: possiamo segmentare i clienti in base ai dati disponibili. Valori errati: Sono tutti quei valori che non risultano validi per la colonna o che per qualche ragione sono incomprensibili. Si hanno dati errati perché questi vengono raccolti in modo non corretto, o perché vengono immessi in modo sbagliato (errori di inserimento).

13 Data Warehouses Data Warehouse: fonte magazzino dei dati storici, dal quale si possono estrarre database tematici di interesse. I database sono integrati tra loro per formare data warehouses. Data warehousing rappresenta una visione ideale di un magazzino centrale di tutti i dati di organizzazione. Modello standard per il Data Mining: CRISP-DM Nei paragrafi precedenti è stato più volte precisato che il DM non è ancora un concetto ben delimitato. Tuttavia, la sempre più forte affermazione del DM e la necessità di capire effettivamente come sfruttare l enorme capacità dello stesso, ha fatto si che la commissione europea abbia ritenuto necessario finanziare un progetto il cui obiettivo è quello di definire un approccio standard ai progetti di DM, chiamato CRISP-DM (CRoss Industry Standard Process for Data Mining). Il CRISP-DM affronta la necessità di tutti gli utenti coinvolti nella diffusione di tecnologie di DM per la soluzione di problemi aziendali. Scopo del progetto è definire e convalidare uno schema d approccio indipendente dalla tipologia di business 6. La figura 3 riassume lo schema CRISP-DM, oltre che chiarire l essenza del DM e il suo utilizzo da parte delle imprese per incrementare il loro business. Come si evince dalla figura il ciclo di vita di un progetto di DM consiste di sei fasi la cui sequenza non è rigida. E quasi sempre richiesto un ritorno indietro ed un proseguimento tra le differenti fasi. Ciò dipende dalla bontà del risultato di ogni fase, che costituisce la base di partenza della fase successiva. Le frecce indicano le più importanti e frequenti dipendenze tra le fasi. L ellisse fuori lo schema rappresenta la natura ciclica di un processo di DM il quale continua anche dopo che una soluzione è stata individuata e sperimentata. Figura 3: Fasi del CRISP-DM Fonte: is.html 6 Per maggiori informazioni sul progetto si veda l URL: is.html. 13

14 Spesso quanto imparato durante un processo di DM porta a nuove informazioni in processi di DM consecutivi. La figura 3 sintetizza le seguenti fasi: Business Understanding: è opportuno che in un progetto di DM si conosca il settore di affari in cui si opera. In questo senso il DM non deve, né può sostituire il compito dei manager tradizionali, ma solo porsi come strumento aggiuntivo di supporto alle decisioni. Non sempre il fenomeno che si vuole analizzare è di facile definizione. Infatti, mentre gli obiettivi aziendali a cui si vuole mirare sono generalmente ben chiari, le problematiche sottostanti possono risultare complesse da tradursi in obiettivi dettagliati di analisi. Una chiara esplicazione del problema e degli obiettivi che si vogliono raggiungere è il presupposto per impostare correttamente l'analisi. Questa fase del processo è sicuramente una delle più critiche, perché a seconda di quanto stabilito in essa, verrà organizzata tutta la metodologia successiva 7. Avendo chiare le idee sul settore di affari in cui si opera, si procede alla conversione di questa conoscenza di settore nella definizione di un problema di DM e quindi alla stesura preliminare di un piano prefissato per raggiungere gli obiettivi stabiliti. Data Understanding: individuati gli obiettivi del progetto di DM, ciò di cui disponiamo per il raggiungimento di tali obiettivi è rappresentato dai dati. Quindi la fase successiva prevede una iniziale raccolta dei dati e una serie di operazioni sui dati stessi che permettono di acquisire maggiore familiarità con essi, di identificare problemi nella qualità dei dati stessi, nonché scoprire le prime informazioni che a volte si possono ricavare dal semplice calcolo delle statistiche di base ( medie, indici di variabilità, ecc). E necessario, anzitutto, individuare le fonti dei dati. Solitamente si scelgono dati da fonti interne, più economiche e affidabili. Hanno inoltre il vantaggio di essere il risultato di esperienze e processi diretti dell'azienda stessa. La fonte ideale dei dati è rappresentata dal datawarehouse aziendale, un "magazzino" di dati storici non più soggetti a mutamenti nel tempo, dal quale è semplice estrarre dei data base tematici (data mart 8 ) di interesse. E chiaro inoltre come le prime due fasi siano collegate dato che rappresentano l individuazione dei fini e dei mezzi di un progetto di DM. Data preparation: tale fase copre tutte le attività che poi portano alla costruzione dell insieme di dati finale a partire dai dati grezzi e dunque dell insieme di dati cui applicare le tecniche di DM. Ottenuta la matrice dei dati (Data mart) è spesso necessario effettuare operazioni di pulizia preliminare dei dati. In altre parole, si effettua un controllo di qualità dei dati disponibili (data cleaning). Si tratta di un controllo formale per l individuazione di variabili non utilizzabili: esistenti, ma inadatte all'analisi. Ma anche di un controllo sostanziale, per la verifica del contenuto delle variabili implementate e della eventuale presenza di dati mancanti o errati. Nel caso emergesse la mancanza di elementi informativi essenziali sarà necessario rivedere la 7 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill Un data mart (database di marketing) è un database tematico, solitamente orientato all attività di marketing. Può essere considerato un archivio aziendale, contenente tutte le informazioni relative alla clientela acquisita e/o potenziale. In altri termini, si tratta di una base di dati relativi alla clientela.

15 fase di individuazione delle fonti individuandone delle nuove e/o procedendo alle opportune trasformazioni. La fase di costruzione del Data Mart delle Analisi (DMA), in termini di definizione dei soggetti logici di riferimento (clienti, territori, prodotti) e di predisposizione degli opportuni descrittori (fatti e dimensioni di analisi) è guidata dagli obiettivi di business che si intende raggiungere e si configura come propedeutica alla fase di analisi. Da ultimo, e da sottolineare che, nell'attività di data mining, è spesso opportuno impostare l'attività di analisi su un sottoinsieme dei dati a disposizione (campione). Ciò perché la qualità delle informazioni estratte da analisi complete, sull'intero datamart a disposizione, non è sempre a priori superiore di quella ottenibile mediante indagini campionarie 10. L'analisi statistica vera e propria inizia con l'attività di analisi preliminare, o esplorativa, dei dati. Si tratta di una prima valutazione della rilevanza dei dati raccolti che può condurre, eventualmente, a una trasformazione delle variabili originarie, per una miglior comprensione del fenomeno o per la sua riconducibilità a metodi statistici che poggiano sul soddisfacimento di determinate ipotesi iniziali. L'analisi esplorativa può suggerire inoltre l'esistenza di dati anomali, differenti rispetto agli altri. Questi dati anomali non vanno necessariamente eliminati perché potrebbero contenere delle informazioni preziose al raggiungimento degli obiettivi dell'analisi 11. In questa fase si pongono in essere le basi utili all analista per pervenire nella fase successiva, alla formulazione dei metodi statistici più opportuni per il raggiungimento degli obiettivi dell'analisi. Ciò naturalmente deve tener conto della qualità dei dati a disposizione, ottenuti nella fase precedente. Modelling: I metodi statistici che possono essere utilizzati sono numerosi ed è per questo che non risulta facile individuare quello giusto. E in questa fase che vengono selezionate e applicate varie tecniche che permettono di ricavare dei modelli. Determinate tecniche, per poter essere applicate, necessitano di specifiche richieste rispetto alla forma dei dati, per cui è spesso opportuno tornare indietro alla fase di preparazione dei dati per modificare il dataset iniziale e adattarlo alla tecnica specifica che si vuole utilizzare. La scelta di quale metodo utilizzare in questa fase dipende essenzialmente dal tipo di problema oggetto di studio e dal tipo di dati disponibili per l analisi 12. Questo tipo di modellistica è piuttosto tradizionale. In genere la possibilità di capire a fondo i modelli e 10 Nelle applicazioni di DM le dimensioni del database analizzato sono spesso notevoli e, pertanto, l utilizzo di un campione, ovviamente rappresentativo, permette di ridurre notevolmente i tempi di analisi ed elaborazione. Lavorando su campioni si ha l importante vantaggio di poter validare il modello costruito sulla rimanente parte dei dati, ottenendo così un importante strumento diagnostico. Infine, il vantaggio di lavorare su base campionaria consiste nel tenere sotto controllo il rischio che il metodo statistico, adattandosi anche alle irregolarità e alla variabilità propria dei dati sui quali è stimata, adattandosi alle irregolarità ed alla variabilità propria dei dati sui quali è stimata, perda capacità di generalizzazione e previsione.pertando le motivazioni che portano all estrazione di un campione rappresentativo si basano sulle seguenti considerazioni: La teoria del campione permette di tenere sotto controllo l entità dell errore campionario; I tempi di elaborazione; Disporre di più basi di confronto per la costruzione e per la scelta dei modelli di sintesi. 11 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill

16 soprattutto la trasparenza degli stessi portano ad una preferenza nel loro utilizzo rispetto ai metodi più complessi e di più difficile analisi. I metodi utilizzati possono essere classificati in base allo scopo immediato per il quale l analisi viene effettuata. In conformità a tale criterio si possono distinguere essenzialmente, quattro grandi classi di metodologie: Metodi descrittivi Questo gruppo di metodologie (denominate anche simmetriche o non supervisionate o indirette) hanno lo scopo di descrivere l'insieme dei dati, in un modo più parsimonioso. Ciò può riguardare.sia la sintesi delle osservazioni, che vengono pertanto classificate in gruppi non noti a priori (distanze, analisi di raggruppamento) sia la sintesi delle variabili, che vengono fra loro relazionate, secondo legami non noti a priori (metodi associativi, modelli log-lineari, modelli grafici). In questo tipo di metodologie, tutte le variabili a disposizione sono trattate allo stesso livello, e non si fanno ipotesi di casualità. La descrizione delle caratteristiche del database può essere complessiva (analisi globale), o peculiare, relative a sottoinsiemi di interesse del database (analisi locali). Esempi di quest'ultima tipologia di analisi includono le regole associative per l'analisi di dati transazionali, oppure l'individuazione di osservazioni anomale. Metodi esplorativi Questo primo gruppo di metodi presenta forti analogie con le tecniche di tipo OLAP. Sono metodologie interattive e, solitamente, visuali, che hanno lo scopo di trarre le prime conclusioni ipotetiche dalla massa di dati disponibili, oltre che fornire indicazioni su eventuali trasformazioni della matrice dei dati, ovvero sulla necessità di integrare o sostituire il database disponibile. L esplorazione dei dati serve per rilevare su quale sotto insieme di attributi è più opportuno lavorare per scoprire in anticipo relazioni e anomalie nei dati e per capire quali possono essere quelle di interesse. Metodi previsivi In questo gruppo di metodologie (denominate anche asimmetriche o supervisionate o dirette) l'obiettivo è spiegare una o più variabili in funzione di tutte le altre, ricercando, sulla base dei dati, delle regole di classificazione o previsione. Tali regole permettono di prevedere o classificare il risultato futuro di una o più variabili risposta o target, in funzione di quanto accade alle variabili esplicative o input. Le principali metodologie di questo tipo sono sia quelle sviluppate nell'ambito dell'apprendimento automatico, quali le reti neurali supervisionate (percettroni multistrato) e gli alberi decisionali, ma anche classici modelli statistici, quali i modelli di regressione lineare e di regressione logistica. Evaluation: prima di procedere all impiego del modello o dei modelli costruiti, è molto importante valutare il modello e i passi eseguiti per costruirlo, accertarsi che attraverso tale modello si possono veramente raggiungere obiettivi di business, capire se qualcosa di importante non è stato sufficientemente considerato nella costruzione dello stesso. La scelta del modello e, quindi della regola decisionale finale, si basa su considerazioni che riguardano il confronto dei risultati ottenuti con i diversi metodi. Indicazioni quali gli obiettivi da raggiungere ed i vincoli di business, sia in termini di budget che di tempo, concorrono alla valutazione della performance di un modello. Il rilascio di una tecnica metodologicamente ottimale potrebbe richiedere molto più del tempo effettivamente disponibile, in questi casi è preferibile perseguire soluzioni più semplici, ma in grado di fornire indicazioni più efficaci rispetto ai criteri tradizionalmente usati in azienda.

17 Quando si costruisce un modello è necessario poi valutarlo. Distinguiamo la valutazione in interna ed esterna al modello in questione. La valutazione interna è senz altro la più semplice da eseguire; qualunque sia il modello posto in essere è in genere semplice costruire degli indici che misurino l accuratezza del modello nel descrivere i dati. Nel caso del DM il processo di costruzione di modelli predittivi prevede di per sé l'adozione di un protocollo talvolta chiamato "apprendimento supervisionato" in grado di assicurare le più accurate e robuste previsioni. L'essenza di questo protocollo consiste nello stimare il modello su una parte di dati a disposizione (training s e t - campione di a p p r e n d i m e nt o ) e successivamente saggiare e, se è opportuno, validare il modello sulla base della rimanente porzione di dati (test set). Un modello è effettivamente costruito quando il ciclo di stima è concluso con la validazione di quest'ultimo. In un contesto di questo tipo disporre di una tecnologia ricca costituisce l elemento caratterizzante l attività di DM: produrre una grande quantità di modelli in modo semplice e rapido, confrontare i risultati da essi prodotti, dare una quantificazione economica della regola costruita, sono gli elementi necessari per la scelta ottimale del modello finale. Potrebbe darsi che nessuno, fra i metodi impiegati, permetta un soddisfacente raggiungimento degli obiettivi di analisi 14 ; in tale caso, si tratterà di "tornare indietro" e specificare una nuova metodologia, più opportuna per l'analisi in oggetto. Deployment: è la fase finale che prevede l utilizzo del modello o dei modelli creati e valutati che possono permettere il raggiungimento dei fini desiderati. L'attività di data mining non è semplice analisi dei dati ma integrazione dei risultati nel processo decisionale, che permettono di passare dalla fase di analisi alla produzione di un motore decisionale. Preso atto dei benefici che il data mining può apportare, diventa cruciale, al fine dell'adeguato sfruttamento delle sue potenzialità, riuscire a implementare correttamente il data mining nei processi aziendali. Il progetto di inserimento del data mining nell'organizzazione aziendale deve essere affrontato in modo graduale, ponendosi obiettivi realistici e misurando i risultati lungo il percorso. L obiettivo finale è il raggiungimento della piena integrazione del data mining con le altre attività di supporto alle decisioni, all'interno delle procedure operative dell'impresa. Per pianificare, implementare e mettere a punto con successo un progetto di data mining è necessaria una soluzione software integrata che racchiuda tutti i passi del processo analitico partendo dal campionamento dei dati, per passare alle fasi di analisi e modellazione fino alla divulgazione delle risultanti informazioni di business. Inoltre, la soluzione ideale dovrebbe essere sufficientemente user-friendly, intuitiva e flessibile da permettere a utenti con diversi gradi di esperienza in campo statistico di comprenderla e utilizzarla. Le caratteristiche che una soluzione di data mining deve avere sono: la disponibilità di un vasto repertorio di tecniche di analisi statistica classica e non, insieme a tecniche di reporting avanzate e di facile utilizzo con attività di pre- 14 Nella valutazione della performance di uno specifico metodo occorrono, oltre a misure diagnostiche di tipo statico, la considerazione dei vincoli di business, sia in termini di risorse che di tempo, oltre alla qualità e disponibilità dei dati. 17

18 processing (per esempio, selezione, trasformazione di variabili, filtraggio ecc.) e le tipiche modalità di post-pro-cessing (in particolare riguardanti la valutazione e il confronto dei modelli); una metodologia di guida all'analisi che sia sufficientemente generale e flessibile da coprire le molteplici esigenze di analisi dell'utente; la capacità di utilizzare in modo appieno e scalare la potenza di calcolo e in genere le risorse hardware disponibili, in funzione del problema da affrontare; questa possibilità è fortemente legata al supporto di tecnologie client/server e alla capacità di sfruttare il parallelismo 15. Fasi del processo di Data Mining. In generale la compilazione di un modello di data mining rientra in un processo più ampio che include tutte le fasi necessarie, dalla formulazione di domande sui dati e dalla creazione di un modello per rispondere a tali domande, alla distribuzione del modello in un ambiente di lavoro. È possibile definire tale processo suddividendolo nei sei passaggi di base seguenti: 1. Determinazione del problema di business=definizione del problema= Business Understanding il primo passo del processo di Data Mining consiste nel definire l obiettivo dell analisi. 2. Selezione ed organizzazione dei dati=preparazione dei dati= Data Understanding: una volta determinato l obiettivo di business bisogna raccogliere e selezionare i dati necessari per l analisi. 3. Analisi esplorativa dei dati= Esplorazione dei dati= Modelling:: l analisi statistica vera e propria inizia con l analisi preliminare dei dati che consiste in una prima valutazione delle variabili statistiche per una eventuale eliminazione o trasformazione. Tramite un adeguata analisi delle variabili statistiche è possibile individuare la presenza di valori anomali che non vanno necessariamente eliminati perché possono contenere informazioni utili al raggiungimento degli obiettivi del Data Mining. L analisi esplorativa può essere utile anche per individuare quali variabili sono tra loro correlate, in modo da eliminarne una, visto che le informazioni contenute sono equivalenti. 4. Convalida e Progettazione= Compilazione dei modelli = Evaluation: per prima cosa bisogna scegliere la tecnica da usare che dipende dall obiettivo dell analisi (punto1) e dai dati disponibili. Utilizziamo poi la tecnica decisa per arrivare all informazione. 5. Interpretazione dei modelli identificati = Esplorazione e convalida dei modelli analisi e verifica dei risultati con possibile retroazione ai punti precedenti per ulteriori interazioni al fine di migliorare l efficacia dei modelli trovati. 6. Consolidamento della conoscenza scoperta = Distribuzione e aggiornamento dei modelli= Deployment: integrazione della conoscenza e valutazione del sistema mettendo a confronto i risultati con l effettivo andamento della realtà e produzione della documentazione agli utenti finali oppure a terze parti interessate. Nel diagramma seguente vengono descritte le relazioni tra i vari passaggi del processo. 15 Paolo Giudici Data Mining, Metodi statistici per le applicazioni aziendali McGraw-Hill 2001

19 Sebbene il processo illustrato nel diagramma sia circolare, non necessariamente ogni passaggio conduce direttamente a quello successivo. La creazione di un modello di data mining è un processo dinamico e iterativo. Dopo avere esplorato i dati, è possibile scoprire che questi dati non sono sufficienti per la creazione di modelli di data mining appropriati e che pertanto è necessario cercarne altri. In alternativa, è possibile compilare diversi modelli e successivamente rendersi conto che tali modelli non consentono di risolvere in modo appropriato il problema definito, il quale deve pertanto essere ridefinito. Potrebbe inoltre essere necessario aggiornare i modelli dopo la loro distribuzione perché nel frattempo sono diventati disponibili altri dati. Potrebbe inoltre essere necessario ripetere molte volte ogni passaggio del processo per creare un modello funzionale. Definizione del problema Il primo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nel definire chiaramente il problema aziendale e nel considerare le diverse modalità per risolverlo. 19

20 Tale passaggio include l'analisi dei requisiti aziendali e la definizione dell'ambito del problema, della metrica in base alla quale verrà valutato il modello e degli obiettivi specifici per il progetto di data mining. È necessario trasformare queste attività nelle domande seguenti: Quali tipi di dati sono necessari? Quali tipi di relazioni si intende trovare? Il problema che si sta tentando di risolvere riflette i criteri o i processi aziendali? Si desidera eseguire stime in base al modello di data mining o soltanto cercare schemi e associazioni interessanti? Quale attributo del set di dati si desidera stimare? Come sono correlate le colonne? Se esistono più tabelle, che tipo di relazione esiste tra di esse? Come sono distribuiti i dati? Si tratta di dati stagionali? I dati rappresentano accuratamente i processi aziendali? Per rispondere a queste domande, potrebbe essere necessario effettuare uno studio sulla disponibilità dei dati al fine di individuare le esigenze degli utenti aziendali in relazione ai dati disponibili. Se i dati non soddisfano le esigenze degli utenti, potrebbe essere necessario ridefinire il progetto. Preparazione dei dati Il secondo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nel consolidamento e nella pulizia dei dati identificati nel passaggio Definizione del problema. I dati possono essere sparsi nell'intera azienda e archiviati in formati diversi oppure possono contenere incoerenze quali voci errate o mancanti. I dati potrebbero ad esempio indicare che un cliente ha acquistato un prodotto prima che tale prodotto fosse disponibile sul mercato o che effettua acquisti periodicamente presso un negozio situato a chilometri di distanza da casa sua.

21 La pulizia dei dati non consiste solo nella rimozione di quelli errati, ma anche nell'identificazione delle correlazioni nascoste nei dati, delle origini dati più accurate e delle colonne più appropriate per l'utilizzo nell'analisi. Ad esempio, deve essere utilizzata la data di spedizione o quella dell'ordine? Il miglior fattore di influenza sulle vendite è la quantità, il prezzo totale o un prezzo scontato? I dati incompleti, errati e gli input che appaiono separati, ma che in realtà sono fortemente correlati, possono incidere sui risultati del modello in modi non previsti. Pertanto, prima di avviare la compilazione di modelli di data mining, è necessario identificare questi problemi e stabilire come risolverli. Esplorazione dei dati Il terzo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nell'esplorazione dei dati preparati. Per prendere decisioni appropriate durante la creazione dei modelli di data mining, è necessario interpretare correttamente i dati. Tra le tecniche di esplorazione sono inclusi il calcolo dei valori minimi e massimi, il calcolo delle deviazioni media e standard e l'analisi della distribuzione dei dati. Ad esempio, analizzando i valori massimo, minimo e medio è possibile stabilire che i dati non sono rappresentativi dei clienti o dei processi aziendali e che di conseguenza è necessario ottenere dati più equilibrati o rivedere le ipotesi su cui si basano le proprie aspettative. Deviazioni standard e altri valori di distribuzione possono fornire informazioni utili su stabilità e accuratezza dei risultati. Una marcata deviazione standard può indicare che l'aggiunta di ulteriori dati potrebbe migliorare il modello. I dati con una notevole deviazione da una distribuzione standard potrebbero essere asimmetrici oppure rappresentare un'immagine precisa di un problema reale, ma rendere difficile l'adattamento di un modello ai dati. Esplorando i dati alla luce della propria conoscenza del problema aziendale, è possibile decidere se il set di dati contiene dati non validi, quindi mettere a punto una strategia per risolvere i problemi o per acquisire una comprensione più approfondita dei comportamenti tipici dell'azienda. 21

22 Compilazione dei modelli Il quarto passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nella compilazione del modello o dei modelli di data mining. Le conoscenze acquisite durante il passaggio Esplorazione dei dati verranno utilizzate per definire e creare i modelli. Dopo avere passato i dati nel modello, l'oggetto modello di data mining contiene riepiloghi e schemi su cui è possibile eseguire query che possono essere utilizzati per la stima. È importante ricordare che a ogni modifica dei dati è necessario aggiornare sia la struttura di data mining sia il modello di data mining. Esplorazione e convalida dei modelli Il quinto passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nell'esplorazione dei modelli di data mining compilati e nella verifica della relativa efficienza.

23 Prima di distribuire un modello in un ambiente di produzione, è opportuno verificarne le prestazioni. Inoltre, quando si compila un modello, in genere si creano più modelli con configurazioni diverse e si testano tutti per stabilire quale di questi produce i migliori risultati per il problema e i dati. Per verificare se il modello è specifico per i dati o se può essere utilizzato per creare inferenze sulla popolazione generale, è possibile utilizzare la tecnica statistica chiamata convalida incrociata per creare automaticamente subset dei dati ed eseguire il test del modello rispetto a ogni subset. Se nessuno dei modelli creati durante il passaggio Compilazione dei modelli risulta efficace, potrebbe essere necessario tornare al passaggio precedente del processo e ridefinire il problema o esaminare nuovamente i dati. Distribuzione e aggiornamento dei modelli L'ultimo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nella distribuzione dei modelli più efficaci in un ambiente di produzione. 23

24 Dopo la distribuzione dei modelli di data mining in un ambiente di produzione, è possibile eseguire numerose attività, a seconda delle esigenze. Tra le attività che è possibile eseguire sono incluse le seguenti: Utilizzare i modelli per creare stime, in base alle quali prendere in seguito decisioni aziendali. Creare query sul contenuto per recuperare statistiche, regole o formule dal modello. Creare un report che consenta agli utenti di eseguire direttamente le query su un modello di data mining esistente. Aggiornare i modelli dopo la revisione e l'analisi. Qualsiasi aggiornamento richiede la rielaborazione dei modelli. La pratica di aggiornare dinamicamente i modelli, parallelamente all'ingresso di ulteriori dati nell'organizzazione, e di apportare modifiche costanti per migliorare l'efficacia della soluzione deve essere parte integrante della strategia di distribuzione. APPLICAZIONI DI DATA MINING Scoring system: è un particolare approccio di analisi incentrato sull assegnazione ai singoli clienti (prospect) della probabilità di adesione ad una campagna commerciale. La finalità è quella di classificare i clienti o gli eventuali prospect in modo tale da attuare azioni di marketing diversificate a seconda dei target individuati. L obiettivo è quello di costruire un modello predittivo in modo da individuare una relazione tra una serie di variabili comportamentali ed una variabile obiettivo che rappresenta l oggetto di indagine. Il modello produce come risultato un punteggio (score) che indica la probabilità di risposta positiva alla campagna (il cliente aderisce o non aderisce alla campagna promozionale). Segmentazione della clientela: applicazione di tecniche di clustering per individuare gruppi omogenei calcolati secondo variabili comportamentali o socio-demografiche. L individuazione delle diverse tipologie permette di effettuare campagne di marketing mirate. Market basket analysis: applicazione di tecniche di associazioni a dati di vendita per individuare quali prodotti vengono acquistati insieme. Utile per la disposizione dei prodotti sugli scaffali. Data Mining per. 1. Classificare: si divide in gruppi omogenei il collettivo statistico. Per esempio si possono dividere i clienti secondo il reddito (basso, medio, alto). Esiste comunque un numero di classi già note e l obiettivo è quello di inserire ogni record (cliente) in una determinata classe. Classificare spesso significa raggruppare per affinità o regole di associazione: l obiettivo è di stabilire quali oggetti (in genere prodotti) possono abbinarsi. Si può utilizzare il raggruppamento per affinità per pianificare la produzione dei prodotti sugli scaffali o nei cataloghi in modo che gli articoli, che vengono acquistati insieme, si trovino il più possibile vicini.

25 2. Fare previsioni: spiegare una più variabili in funzione di tutte le altre. Molta importanza hanno i dati storici perché servono per costruire un modello che spieghi il comportamento futuro in base a quello passato. 3. Descrizione e visualizzazione: una descrizione efficace di uno specifico comportamento indica da dove partire per cercare una spiegazione. La visualizzazione dei dati è una forma molto efficace di Data Mining descrittivo, è molto più immediato ricavare utili informazioni da dati visivi. Il Data Mining è molto usato nel settore marketing vista la presenza di grosse quantità di dati da elaborare per ricavarne informazioni utili. Questi dati sono tutti raccolti in un database marketing e si riferiscono a tutti i potenziali clienti (prospect), di una campagna di mercato. Questi dati possono descrivere il comportamento del cliente già acquisito o possono contenere una serie di informazioni grezze di tipo demografico sui possibili clienti. Il Data Mining permette all azienda di ridurre le spese non contattando la clientela che difficilmente risponderà all offerta. È possibile applicare i modelli di data mining a scenari aziendali specifici, ad esempio: Previsioni di vendite Mailing diretti a clienti specifici Individuazione dei prodotti che probabilmente verranno venduti insieme Ricerca di sequenze nell'ordine in cui i clienti aggiungono prodotti a un carrello acquisti Applicazioni di Data Mining Ma a che cosa serve il DM in una logica di CRM e customer satisfaction? Principalmente il DM è utilizzato, in questo ambito, per profilare la clientela e, conseguentemente, definire strategie d'azione più efficienti e diverse in funzione dei profili. L analisi dei dati relativi alla clientela è probabilmente il principale ambito applicativo del DM. Si è detto, infatti, che il fine ultimo del CRM è l'instaurazione di un rapporto duraturo e biunivoco tra cliente e azienda nel tentativo di una sempre maggiore soddisfazione delle sue aspettative-preferenze. Logicamente, però, l'azienda non può offrire al singolo cliente un prodotto-servizio unico. Il processo di DM nasce proprio per cercare di definire gruppi di clienti con caratteristiche simili internamente allo stesso (ovvero con varianza minima internamente al gruppo), ma diverse tra gruppi (ovvero con varianza elevata esternamente). Ogni gruppo potrà essere rappresentato da un cliente teorico, non reale, con una scheda di preferenza simile a quella degli appartenenti al gruppo stesso. Se, ad esempio, esistono n clienti campionati e tramite un processo di DM si ricavano p gruppi, allora nascono p profili di clienti teorici. L'azienda sviluppa le decisioni di business in funzione di detti p profili, garantendosi un risultato economico migliore e una maggiore soddisfazione della propria clientela. Quest'ultima, infatti, considererà il prodotto-servizio offerto come maggiormente rispondente, alle sue esigenze, seppure non perfettamente corrispondente perché nato in funzione del cliente teorico. Tuttavia si assiste a un miglioramento rispetto alla situazione in cui un solo bene viene prodotto in base alle caratteristiche medie del gruppo 25

26 iniziale, costituito da tutti gli n individui. In questo senso, quindi, il DM apporta efficienza ed è importantissimo per qualunque piano di CRM 2. La figura 4 sintetizza in modo chiaro il legame esistente tra il DM e il CRM. Fig. 4: I ll Data Mining: uno strumento a supporto del CRM e della Customer Satisfaction Fonte: Stofella (2001), Ill DM: uno strumento a supporto del CRM 2 Farinet Ploncher Customer Relationship Management, ETAS

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi ControlloCosti Cubi OLAP I cubi OLAP Un Cubo (OLAP, acronimo di On-Line Analytical Processing) è una struttura per la memorizzazione e la gestione dei dati che permette di eseguire analisi in tempi rapidi,

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

Export Development Export Development

Export Development Export Development SERVICE PROFILE 2014 Chi siamo L attuale scenario economico nazionale impone alle imprese la necessità di valutare le opportunità di mercato offerte dai mercati internazionali. Sebbene una strategia commerciale

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Corso di. Analisi e contabilità dei costi

Corso di. Analisi e contabilità dei costi Corso di Analisi e Contabilità dei Costi Prof. 1_I costi e il sistema di controllo Perché analizzare i costi aziendali? La CONOSCENZA DEI COSTI (formazione, composizione, comportamento) utile EFFETTUARE

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Calcolo del Valore Attuale Netto (VAN)

Calcolo del Valore Attuale Netto (VAN) Calcolo del Valore Attuale Netto (VAN) Il calcolo del valore attuale netto (VAN) serve per determinare la redditività di un investimento. Si tratta di utilizzare un procedimento che può consentirci di

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

Data Mining a.a. 2010-2011

Data Mining a.a. 2010-2011 Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00

Dettagli

Ciclo di vita dimensionale

Ciclo di vita dimensionale aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Il modello di ottimizzazione SAM

Il modello di ottimizzazione SAM Il modello di ottimizzazione control, optimize, grow Il modello di ottimizzazione Il modello di ottimizzazione è allineato con il modello di ottimizzazione dell infrastruttura e fornisce un framework per

Dettagli

Scheda. Il CRM per la Gestione del Marketing. Accesso in tempo reale alle Informazioni di rilievo

Scheda. Il CRM per la Gestione del Marketing. Accesso in tempo reale alle Informazioni di rilievo Scheda Il CRM per la Gestione del Marketing Nelle aziende l attività di Marketing è considerata sempre più importante poiché il mercato diventa sempre più competitivo e le aziende necessitano di ottimizzare

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

Software per Helpdesk

Software per Helpdesk Software per Helpdesk Padova - maggio 2010 Antonio Dalvit - www.antoniodalvit.com Cosa è un helpdesk? Un help desk è un servizio che fornisce informazioni e assistenza ad utenti che hanno problemi nella

Dettagli

Come archiviare i dati per le scienze sociali

Come archiviare i dati per le scienze sociali Come archiviare i dati per le scienze sociali ADPSS-SOCIODATA Archivio Dati e Programmi per le Scienze Sociali www.sociologiadip.unimib.it/sociodata E-mail: adpss.sociologia@unimib.it Tel.: 02 64487513

Dettagli

DEPLOY YOUR BUSINESS

DEPLOY YOUR BUSINESS DEPLOY YOUR BUSINESS COS É ARROCCO? E uno strumento online per lo sviluppo del Piano Economico-Finanziario del Business Plan. Arrocco è uno strumento online appositamente progettato per lo sviluppo di

Dettagli

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012 GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012 L unità di Milano Città Studi del Centro matematita propone anche per l a.s. 2011-2012 una serie di problemi pensati per

Dettagli

Project Cycle Management

Project Cycle Management Project Cycle Management Tre momenti centrali della fase di analisi: analisi dei problemi, analisi degli obiettivi e identificazione degli ambiti di intervento Il presente materiale didattico costituisce

Dettagli

DIFFERENZIARE LE CAMPAGNE DI MARKETING La scelta del canale adeguato

DIFFERENZIARE LE CAMPAGNE DI MARKETING La scelta del canale adeguato Via Durini, 23-20122 Milano (MI) Tel.+39.02.77.88.931 Fax +39.02.76.31.33.84 Piazza Marconi,15-00144 Roma Tel.+39.06.32.80.37.33 Fax +39.06.32.80.36.00 www.valuelab.it valuelab@valuelab.it DIFFERENZIARE

Dettagli

Introduzione al KDD e al DATA MINING

Introduzione al KDD e al DATA MINING Introduzione al KDD e al DATA MINING Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Verso il DM: una breve analisi delle fasi del processo KDD. 1 2 Il DM: Alcune definizioni.

Dettagli

1. Definizione di budget e collocazione nel processo di programmazione e controllo

1. Definizione di budget e collocazione nel processo di programmazione e controllo 21 Capitolo II Il budget 1. Definizione di budget e collocazione nel processo di programmazione e controllo Il budget - e' un programma delle operazioni di gestione da compiere in un anno, finalizzato

Dettagli

SOLUZIONE Web.Orders online

SOLUZIONE Web.Orders online SOLUZIONE Web.Orders online Gennaio 2005 1 INDICE SOLUZIONE Web.Orders online Introduzione Pag. 3 Obiettivi generali Pag. 4 Modulo di gestione sistema Pag. 5 Modulo di navigazione prodotti Pag. 7 Modulo

Dettagli

03. Il Modello Gestionale per Processi

03. Il Modello Gestionale per Processi 03. Il Modello Gestionale per Processi Gli aspetti strutturali (vale a dire l organigramma e la descrizione delle funzioni, ruoli e responsabilità) da soli non bastano per gestire la performance; l organigramma

Dettagli

TECNICHE DI SIMULAZIONE

TECNICHE DI SIMULAZIONE TECNICHE DI SIMULAZIONE INTRODUZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Introduzione alla simulazione Una simulazione è l imitazione

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

IL PROCESSO DI BUDGETING. Dott. Claudio Orsini Studio Cauli, Marmocchi, Orsini & Associati Bologna

IL PROCESSO DI BUDGETING. Dott. Claudio Orsini Studio Cauli, Marmocchi, Orsini & Associati Bologna IL PROCESSO DI BUDGETING Dott. Claudio Orsini Studio Cauli, Marmocchi, Orsini & Associati Bologna Il processo di budgeting Il sistema di budget rappresenta l espressione formalizzata di un complesso processo

Dettagli

SISTEMI DI NUMERAZIONE E CODICI

SISTEMI DI NUMERAZIONE E CODICI SISTEMI DI NUMERAZIONE E CODICI Il Sistema di Numerazione Decimale Il sistema decimale o sistema di numerazione a base dieci usa dieci cifre, dette cifre decimali, da O a 9. Il sistema decimale è un sistema

Dettagli

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione alla teoria dei database relazionali. Come progettare un database Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare

Dettagli

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)

Dettagli

ISTRUZIONI PER LA GESTIONE BUDGET

ISTRUZIONI PER LA GESTIONE BUDGET ISTRUZIONI PER LA GESTIONE BUDGET 1) OPERAZIONI PRELIMINARI PER LA GESTIONE BUDGET...1 2) INSERIMENTO E GESTIONE BUDGET PER LA PREVISIONE...4 3) STAMPA DIFFERENZE CAPITOLI/BUDGET.10 4) ANNULLAMENTO BUDGET

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

L uso della Balanced Scorecard nel processo di Business Planning

L uso della Balanced Scorecard nel processo di Business Planning L uso della Balanced Scorecard nel processo di Business Planning di Marcello Sabatini www.msconsulting.it Introduzione Il business plan è uno strumento che permette ad un imprenditore di descrivere la

Dettagli

Olga Scotti. Basi di Informatica. Excel

Olga Scotti. Basi di Informatica. Excel Basi di Informatica Excel Tabelle pivot Le tabelle pivot sono strumenti analitici e di reporting per creare tabelle riassuntive, riorganizzare dati tramite trascinamento, filtrare e raggruppare i dati,

Dettagli

Descrizione dettagliata delle attività

Descrizione dettagliata delle attività LA PIANIFICAZIONE DETTAGLIATA DOPO LA SELEZIONE Poiché ciascun progetto è un processo complesso ed esclusivo, una pianificazione organica ed accurata è indispensabile al fine di perseguire con efficacia

Dettagli

Attività federale di marketing

Attività federale di marketing Attività federale di marketing Gestione e certificazione delle sponsorizzazioni Il Feedback Web Nel piano di sviluppo della propria attività di marketing, la FIS ha adottato il sistema Feedback Web realizzato

Dettagli

Area Marketing. Approfondimento

Area Marketing. Approfondimento Area Marketing Approfondimento CUSTOMER SATISFACTION COME RILEVARE IL LIVELLO DI SODDISFAZIONE DEI CLIENTI (CUSTOMER SATISFACTION) Rilevare la soddisfazione dei clienti non è difficile se si dispone di

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Corso Online: Marketing degli Eventi Culturali e dello Spettacolo

Corso Online: Marketing degli Eventi Culturali e dello Spettacolo Corso Online: Marketing degli Eventi Culturali e dello Spettacolo Programma (121 pagine tra dispense e slides) IL MARKETING IL MARKETING IN AZIENDA - AZIENDE MARKETING ORIENTED

Dettagli

Corso semestrale di Analisi e Contabilità dei Costi

Corso semestrale di Analisi e Contabilità dei Costi Corso semestrale di Analisi e Contabilità dei Costi Aureli Selena 1_Sistema di controllo e contabilità analitica Perché analizzare i costi aziendali? La CONOSCENZA DEI COSTI (formazione, composizione,

Dettagli

REALIZZARE UN MODELLO DI IMPRESA

REALIZZARE UN MODELLO DI IMPRESA REALIZZARE UN MODELLO DI IMPRESA - organizzare e gestire l insieme delle attività, utilizzando una piattaforma per la gestione aziendale: integrata, completa, flessibile, coerente e con un grado di complessità

Dettagli

SysAround S.r.l. L'efficacia delle vendite è l elemento centrale per favorire la crescita complessiva dell azienda.

SysAround S.r.l. L'efficacia delle vendite è l elemento centrale per favorire la crescita complessiva dell azienda. Scheda Il CRM per la Gestione delle Vendite Le organizzazioni di vendita sono costantemente alla ricerca delle modalità migliori per aumentare i ricavi aziendali e ridurre i costi operativi. Oggi il personale

Dettagli

L ergonomia dei sistemi informativi

L ergonomia dei sistemi informativi Strumenti non convenzionali per l evoluzione d Impresa: L ergonomia dei sistemi informativi di Pier Alberto Guidotti 1 L ergonomia dei sistemi informativi CHI SONO Pier Alberto Guidotti Fondatore e direttore

Dettagli

Dispensa di database Access

Dispensa di database Access Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di

Dettagli

marketing highlights Google Analytics A cura di: dott. Fabio Pinello

marketing highlights Google Analytics A cura di: dott. Fabio Pinello marketing highlights Google Analytics A cura di: dott. Fabio Pinello Google Analytics è uno strumento gratuito fornito da Google per monitorare il traffico di visite dei siti web su cui è installato. Cos

Dettagli

BANCHE DATI. Informatica e tutela giuridica

BANCHE DATI. Informatica e tutela giuridica BANCHE DATI Informatica e tutela giuridica Definizione La banca dati può essere definita come un archivio di informazioni omogenee e relative ad un campo concettuale ben identificato, le quali sono organizzate,

Dettagli

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita; .netbin. è un potentissimo strumento SVILUPPATO DA GIEMME INFORMATICA di analisi dei dati con esposizione dei dati in forma numerica e grafica con un interfaccia visuale di facile utilizzo, organizzata

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

Logistica magazzino: Inventari

Logistica magazzino: Inventari Logistica magazzino: Inventari Indice Premessa 2 Scheda rilevazioni 2 Registrazione rilevazioni 3 Filtro 3 Ricerca 3 Cancella 3 Stampa 4 Creazione rettifiche 4 Creazione rettifiche inventario 4 Azzeramento

Dettagli

QUESTIONARIO 1: PROCESSO DI AUTOVALUTAZIONE

QUESTIONARIO 1: PROCESSO DI AUTOVALUTAZIONE QUESTIONARIO 1: PROCESSO DI AUTOVALUTAZIONE Step 1 - Decidere come organizzare e pianificare l autovalutazione (AV) 1.1. Assicurare l impegno e il governo del management per avviare il processo. 1.2. Assicurare

Dettagli

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE: IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:! definisce i bisogni e i desideri insoddisfatti! ne definisce l ampiezza! determina quali mercati obiettivo l impresa può meglio servire! definisce i prodotti

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

Cosa è un foglio elettronico

Cosa è un foglio elettronico Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti

Dettagli

Organizzazione e pianificazione delle attività di marketing

Organizzazione e pianificazione delle attività di marketing Organizzazione e pianificazione delle attività di marketing Il continuum delle strutture tra efficienza ed efficacia Struttura funzionale Struttura divisionale Struttura a matrice Struttura orizzontale

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Indice. pagina 2 di 10

Indice. pagina 2 di 10 LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA

Dettagli

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI Un utilizzatore a valle di sostanze chimiche dovrebbe informare i propri fornitori riguardo al suo utilizzo delle sostanze (come tali o all

Dettagli

Progettazione di un Database

Progettazione di un Database Progettazione di un Database Per comprendere il processo di progettazione di un Database deve essere chiaro il modo con cui vengono organizzati e quindi memorizzati i dati in un sistema di gestione di

Dettagli

UN APP FLESSIBILE E INTUITIVA PER GESTIRE I TUOI AFFARI IN TUTTA COMODITÀ

UN APP FLESSIBILE E INTUITIVA PER GESTIRE I TUOI AFFARI IN TUTTA COMODITÀ UN APP FLESSIBILE E INTUITIVA PER GESTIRE I TUOI AFFARI IN TUTTA COMODITÀ APP Mobile MIGLIORA LA QUALITÀ DEL RAPPORTO CON I CLIENTI, SCEGLI LA TECNOLOGIA DEL MOBILE CRM INTEGRABILE AL TUO GESTIONALE AZIENDALE

Dettagli

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria ESAME DI STATO DI ABILITAZIONE ALL'ESERCIZIO DELLA PROFESSIONE DI INGEGNERE PRIMA PROVA SCRITTA DEL 22 giugno 2011 SETTORE DELL INFORMAZIONE Tema n. 1 Il candidato sviluppi un analisi critica e discuta

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Il raggruppamento e la struttura dei dati sono due funzioni di gestione dati di Excel, molto simili tra

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

2003.06.16 Il sistema C.R.M. / E.R.M.

2003.06.16 Il sistema C.R.M. / E.R.M. 2003.06.16 Il sistema C.R.M. / E.R.M. Customer / Enterprise : Resource Management of Informations I-SKIPPER è un sistema di CONOSCENZE che raccoglie ed integra INFORMAZIONI COMMERCIALI, dati su Clienti,

Dettagli

CHIUSURE di MAGAZZINO di FINE ANNO

CHIUSURE di MAGAZZINO di FINE ANNO CHIUSURE di MAGAZZINO di FINE ANNO Operazioni da svolgere per il riporto delle giacenze di fine esercizio Il documento che segue ha lo scopo di illustrare le operazioni che devono essere eseguite per:

Dettagli

Analisi della performance temporale della rete

Analisi della performance temporale della rete Analisi della performance temporale della rete In questo documento viene analizzato l andamento nel tempo della performance della rete di promotori. Alcune indicazioni per la lettura di questo documento:

Dettagli

IL REPORTING DIREZIONALE

IL REPORTING DIREZIONALE IL REPORTING DIREZIONALE Il Reporting Direzionale è uno degli strumenti chiave necessari al management per governare l azienda e rappresenta il momento di sintesi delle rilevazioni contabili che permettono

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

EVOLUZIONE DELLE INIZIATIVE PER LA QUALITA : L APPROCCIO SIX SIGMA

EVOLUZIONE DELLE INIZIATIVE PER LA QUALITA : L APPROCCIO SIX SIGMA http://www.sinedi.com ARTICOLO 3 LUGLIO 2006 EVOLUZIONE DELLE INIZIATIVE PER LA QUALITA : L APPROCCIO SIX SIGMA A partire dal 1980 sono state sviluppate diverse metodologie per la gestione della qualità

Dettagli

SCELTA DELL APPROCCIO. A corredo delle linee guida per l autovalutazione e il miglioramento

SCELTA DELL APPROCCIO. A corredo delle linee guida per l autovalutazione e il miglioramento SCELTA DELL APPROCCIO A corredo delle linee guida per l autovalutazione e il miglioramento 1 SCELTA DELL APPROCCIO l approccio all autovalutazione diffusa può essere normale o semplificato, a seconda delle

Dettagli

Gestione Turni. Introduzione

Gestione Turni. Introduzione Gestione Turni Introduzione La gestione dei turni di lavoro si rende necessaria quando, per garantire la continuità del servizio di una determinata struttura, è necessario che tutto il personale afferente

Dettagli

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011 I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA Palermo 9 novembre 2011 UNIVERSITÀ DEGLI STUDI DI PALERMO Webquest Attività di indagine guidata sul Web, che richiede la partecipazione attiva degli studenti,

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

MODELLO RELAZIONALE. Introduzione

MODELLO RELAZIONALE. Introduzione MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

GESTIONE CONTRATTI. Contratti clienti e contratti fornitori

GESTIONE CONTRATTI. Contratti clienti e contratti fornitori SPRING - CONTRATTI La Gestione Contratti di SPRING, in un'azienda, risolve le esigenze relative alla rilevazione dei contratti e delle relative condizioni. In particolare è possibile definire i servizi

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

Per informazioni rivolgersi allo Studio:

Per informazioni rivolgersi allo Studio: Lo Studio, notificando direttamente via e-mail o sms l avvenuta pubblicazione di news, circolari, prontuari, scadenzari, dà la possibilità all azienda di visualizzare immediatamente ed in qualsiasi luogo,

Dettagli

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione Elenchi Intrastat Indice degli argomenti Premessa Operazioni preliminari Inserimento manuale dei movimenti e presentazione Collegamento con la Contabilità Collegamento con il ciclo attivo e passivo Generazione

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Soluzione dell esercizio del 2 Febbraio 2004

Soluzione dell esercizio del 2 Febbraio 2004 Soluzione dell esercizio del 2 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. E evidenziato un sotto caso di uso. 2. Modello concettuale Osserviamo

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo

Dettagli

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA BOZZA 23/07/2008 INDICE 1. PERCHÉ UNA NUOVA VERSIONE DEI MODULI DI RACCOLTA DATI... 3 2. INDICAZIONI GENERALI... 4 2.1. Non modificare la struttura dei fogli di lavoro... 4 2.2. Cosa significano

Dettagli

Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente

Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente L'acquisto di un immobile comporta un impegno finanziario notevole e non sempre è possibile disporre della somma di denaro

Dettagli

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Il presente materiale didattico costituisce parte integrante del percorso formativo

Dettagli

Guida Compilazione Piani di Studio on-line

Guida Compilazione Piani di Studio on-line Guida Compilazione Piani di Studio on-line SIA (Sistemi Informativi d Ateneo) Visualizzazione e presentazione piani di studio ordinamento 509 e 270 Università della Calabria (Unità organizzativa complessa-

Dettagli

Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente

Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente L'acquisto di un immobile comporta un impegno finanziario notevole e non sempre è possibile disporre della somma di denaro

Dettagli

SCENARIO. Personas. 2010 ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

SCENARIO. Personas. 2010 ALICE Lucchin / BENITO Condemi de Felice. All rights reserved. SCENARIO Personas SCENARIO È una delle tecniche che aiuta il designer a far emergere le esigente dell utente e il contesto d uso. Gli scenari hanno un ambientazione, attori (personas) con degli obiettivi,

Dettagli

Contabilità generale e contabilità analitica

Contabilità generale e contabilità analitica 1/5 Contabilità generale e contabilità analitica La sfida della contabilità analitica è di produrre informazioni sia preventive che consuntive. Inoltre questi dati devono riferirsi a vari oggetti (prodotti,

Dettagli

IL SISTEMA INFORMATIVO

IL SISTEMA INFORMATIVO LEZIONE 15 DAL MODELLO DELLE CONDIZIONI DI EQUILIBRIO AL MODELLO CONTABILE RIPRESA DEL CONCETTO DI SISTEMA AZIENDALE = COMPLESSO DI ELEMENTI MATERIALI E NO CHE DIPENDONO RECIPROCAMENTE GLI UNI DAGLI ALTRI

Dettagli

GESTIONE AVANZATA DEI MATERIALI

GESTIONE AVANZATA DEI MATERIALI GESTIONE AVANZATA DEI MATERIALI Divulgazione Implementazione/Modifica Software SW0003784 Creazione 23/01/2014 Revisione del 25/06/2014 Numero 1 Una gestione avanzata dei materiali strategici e delle materie

Dettagli

Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi.

Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi. E. Calabrese: Fondamenti di Informatica Problemi-1 Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi. L'informatica

Dettagli

Che cos è l intelligenza e come funzionano i test del Q.I.

Che cos è l intelligenza e come funzionano i test del Q.I. Che cos è l intelligenza e come funzionano i test del Q.I. Non esiste, al giorno d oggi, un parere unanime della comunità scientifica sulla definizione di intelligenza. In generale, potremmo dire che è

Dettagli