Il data mining. di Alessandro Rezzani

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Il data mining. di Alessandro Rezzani"

Transcript

1 Il data mining di Alessandro Rezzani Cos è il data mining Knowledge Discovery in Databases (KDD)... 3 Lo standard CRISP-DM... 4 La preparazione dei dati... 7 Costruzione del modello... 7 Attività tipiche... 8 Valutazione del modello... 9 La matrice di confusione... 9 La curva ROC (Receiver Operating Characteristic) Lift chart Bibliografia... 14

2 Cos è il data mining. Se esaminiamo come le modalità di analisi dei dati si sono evolute negli anni, notiamo come da indagini effettuate direttamente sulle fonti operazionali, si è passati, a partire dagli anni 90, all utilizzo di una base dati creata appositamente: il data warehouse. Con il data warehouse e i database multidimensionali è possibile analizzare i dati non solo al massino livello di dettaglio, ma anche a diversi livelli di aggregazione, e, inoltre, eseguendo operazione di drill-down o slicing e dicing si ottengono dinamicamente prospettive diverse del dato. Tuttavia si tratta sempre di una visione storica, che consente soltanto una valutazione a consuntivo di ciò che è accaduto nel passato, oppure di ciò che sta accadendo ora. Più di recente, a partire dai primi anni 2000, ha cominciato ad affermarsi la necessità di effettuare analisi previsionali, per anticipare gli eventi e ottenere un vantaggio di business. La grande quantità di dati disponibili ha reso inoltre necessaria l adozione di tecniche di analisi efficienti e in grado di lavorare su valori numerici, testuali o binari (per es. le immagini). Le tecniche di analisi, a cui ci riferiamo, prendono il nome di data mining, poiché consentono di scavare nei dati ed estrarre informazioni, pattern 1 e relazioni non immediatamente identificabili e non note a priori. Il data mining può essere utilizzato in qualsiasi settore economico, per risolvere molteplici problemi di business: - Ricerca di anomalie. Il data mining può essere impiegato per l identificazione di comportamenti fraudolenti nell utilizzo di carte di credito. - Churn Analysis. La churn analysis consiste nell analisi della clientela per determinare i clienti che presentano un alta probabilità di passare alla concorrenza, al fine di intervenire in anticipo ed evitarne la migrazione. - Segmentazione della clientela. Le tecniche di segmentazione possono essere utili, per esempio, a determinare il profilo comportamentale dei clienti. Una volta identificati i segmenti di clienti simili, è possibile studiare strategie di marketing differenziate per ciascun gruppo. - Previsioni. Le analisi predittive dell andamento delle vendite, o, genericamente dell andamento di serie temporali, sono un altro degli ambiti di impiego del data mining. - Campagne pubblicitarie mirate. L utilizzo del data mining nell ambito delle campagne di marketing mirate, consente di stabilire a priori quali siano, tra i prospect, quelli con maggior probabilità di acquistare i prodotti dell azienda, in modo da impiegare su di essi le risorse del marketing. - Market basket analysis. Le tecniche di market basket analysis sono utili a suggerire, a un certo cliente, ulteriori prodotti da acquistare in base ai suoi comportamenti d acquisto abituali, oppure a definire il layout dei prodotti sugli scaffali. Il data mining comporta l utilizzo integrato di diverse discipline, come il data warehousing, la statistica, l intelligenza artificiale, le tecniche di visualizzazione, l analisi delle serie temporali e l analisi di dati geospaziali. La componente tecnologica riveste una grande importanza, poiché gli algoritmi di data mining richiedono una certa potenza di calcolo e tecniche di ottimizzazione delle performance sono essenziali, soprattutto in presenza di una mole di dati elevata. Nel processo di data mining è però la figura dell utente ad assumere un ruolo centrale: si tratta, infatti, di un processo che richiede l interazione di un esperto del business, che deve sfruttare la propria conoscenza per la preparazione dei dati, per costruzione dei modelli e per la valutazione dei risultati. La tabella seguente contiene un sunto delle caratteristiche del data mining. 1 Per pattern intendiamo una struttura, un modello, o, più in generale una rappresentazione sintetica dei dati.

3 Tabella 1 Caratteristiche del data mining. Caratteristica Scopo Ambito dei dati Ipotesi di partenza Requisiti Interazione Capacità di elaborazione Interpretazione dei risultati Descrizione Il data mining utilizza tecniche analitiche per identificare pattern nascosti nei dati. Il data mining può trattare dati qualitativi, qualitativi, testuali, immagini e suoni. Non richiede ipotesi a priori da parte del ricercatore, nemmeno sulla forma distributiva 2 delle variabili. E necessaria una buona conoscenza de business nel cui ambito si vogliono applicare le tecniche di data mining. Ciò consente la corretta valutazione e selezione dei dati di partenza rilevanti. Inoltre occorre aver pienamente compreso i requisiti e gli obiettivi che si vogliono raggiungere, al fine di poter interpretare nel modo corretto i risultati dei modelli. L analista e il sistema di data mining devono interagire al fine di produrre un modello valido. L analista sceglie i dati da analizzare, configura il sistema di data mining e valuta i risultati. Il processo può essere ripetuto per affinare il modello. Gli algoritmi sono ottimizzati per minimizzare i tempi di elaborazione anche in presenza di un numero elevato di osservazione e un numero elevato di variabili. I software i data mining offrono propongono i risultati in forma semplice, anche attraverso l uso di strumenti visuali che ne facilitano l interpretazione. Knowledge Discovery in Databases (KDD) Il data mining fa parte di un più ampio processo chiamato Knowledge Discovery in Databases (KDD) e ne rappresenta la fase più importante. Il KDD, come si evince dal nome, ha lo scopo di estrarre la conoscenza dai dati. Sappiamo che il dato è il risultato di una misurazione di un certo evento e di per sé non ha grande utilità. Tuttavia valutando i dati in un preciso contesto e applicandovi opportune elaborazioni è possibile ricavare informazioni: in questo modo il dato diventa utile e in grado di rispondere a una richiesta specifica. Tuttavia l informazione va utilizzata in modo produttivo al fine di ottenere conoscenza. La conoscenza è dunque il risultato di un percorso che parte dai dati grezzi e termina con l interpretazione e lo sfruttamento produttivo dei risultati. Il processo di KDD contiene diversi passi: 1) Selezione dei dati. E evidente come un database possa contenere nati di varia natura, che per il problema in esame possono risultare inutili. E dunque importante comprendere il dominio applicativo determinato dagli obiettivi dell utente finale. 2) Preelaborazione. Dopo aver ridotto l ambito dei dati da considerare, è comunque poco opportuno analizzarli per intero, poiché la quantità di dati potrebbe essere ancora molto elevata. Può essere conveniente estrarre un campione e analizzare soltanto quello. Inoltre nella fase di preelaborazione rientrano le attività di pulizia dei dati e di definizione del trattamento dei dati mancanti. Teniamo in 2 Le tecniche statistiche richiedono quasi sempre di formulare ipotesi sulla distribuzione delle variabili esaminate.

4 considerazione, però, che, se i dati provengono dal data warehouse, molte le operazioni di pulizia dovrebbero essere già state messe in opera nella fase di ETL. 3) Trasformazione. Le trasformazioni possono riguardare cambiamenti nei tipi di dato (da numero a stringa, per esempio), la discretizzazione di valori continui, oppure la normalizzazione dei valori. 4) Data Mining. La fase di data mining vede la determinazione dell algoritmo da utilizzare, la costruzione e il testing di un modello. 5) Interpretazione dei risultati.i risultati del modello di data mining evidenzia dei pattern nascosti nei dati: occorre però valutare se essi sono utili e possono apportare un beneficio per il business. Figura 1 Il processo di KDD. Lo standard CRISP-DM CRISP-DM, che sta per Cross Industry Standard Process for Data Mining è un metodo di comprovata efficacia per l implementazione di un processo di data mining. I lavori di definizione dello standard prendono avvio nel 1996 come iniziativa finanziata dall Unione Europea e portata avanti da un consorzio di quattro società: SPSS, NCR Corporation, Daimler-Benz e OHRA. La prima versione della metodologia vede la luce nel 1999, mentre nel 2006 iniziano i lavori per definire lo standard CRISP-DM 2.0. Tuttavia, la seconda versione non ha mai visto la luce e nessun tipo di attività o comunicazione è più pervenuta dal gruppo di lavoro dal 2007, tant è che anche il sito web non è più attivo da parecchio tempo. Nonostante questo la metodologia CRISP-DM è valida ed è stata largamente adottata dalle aziende che hanno affrontato progetti di data mining.

5 Il presupposto della metodologia risiede nella volontà di rendere il processo di data mining affidabile e utilizzabile da persone con pochi skill in materia, ma con elevata conoscenza del business. La metodologia fornisce un framework che prevede sei fasi, che possono essere ripetute ciclicamente con l obiettivo di revisionare e rifinire il modello previsionale: - Business Understanding - Data Understanding - Data Preparation - Modeling - Evaluation - Deployment La figura che segue mostra l intero processo. Figura 2 Metodologia CRISP-DM. Ciascuna delle fasi si articola in più punti, illustrati nella tabella seguente. Tabella 2 Punti della metodologia CRISP-DM Determinazione degli obiettivi di business Assessment della situazione attuale Business Understanding La comprensione delle problematiche del business e degli obiettivi aziendali è necessaria al fine di poter creare un modello di data mining adeguato. Le attività di assessment riguardano tipicamente: Inventario delle risorse Requisiti, presupposti e vincoli Rischi e imprevisti

6 Determinazione degli obiettivi del processo di data mining Creazione del piano di progetto Identificazione e recupero dei dati Esplorazione e descrizione dei dati Verifica della qualità Selezione dei dati Pulizia dei dati, integrazione e formattazione Costruzione dei dati Selezione dell algoritmo Creazione del modello Valutazione dei risultati Analisi dei costi/benefici La costruzione del modello e la scelta degli algoritmi di calcolo dipendono anche dagli obiettivi che il sistema dovrebbe raggiungere; in altre parole è necessario interpretare in maniera corretta i requisiti dell utente. Già nella prima fase, una volta capiti gli obiettivi, è possibile predisporre il piano di sviluppo del progetto di data mining. Data understanding 3 In base a quanto determinato con la fase precedente, occorre identificare quali sono i dati rilevanti per la creazione del modello. La metodologia prevede per questa fase la creazione di un report che evidenzi le caratteristiche delle fonti dati e i criteri di scelta. I dati devono essere analizzati e descritti attraverso un report L attività di esplorazione e descrizione dei dati deve essere completata con la verifica della qualità. Devono essere indentificati i dati mancanti, le situazioni anomale (i cosiddetti outliers, ecc.) Data Preparation I dati identificati come pertinenti nel punto precedente, sono ulteriormente soggetti a selezione, poiché occorre individuare le singole tabelle e i singoli campi da utilizzare nel modello di data mining La preparazione del data set da utilizzare per la costruzione del modello di data mining prevede un attività di pulizia dei dati, qualora la verifica della qualità avesse evidenziato problemi. Oltre a questo, potrebbe essere utile integrare il data set con dati provenienti da fonti esterne. La costruzione dei dati consiste nella creazione di campi calcolati che saranno utilizzati come attributi d analisi nei modelli di data mining. Modeling Come vedremo esistono spesso più algoritmi che si adattano ad un determinato problema di data mining. In questa fase occorre identificare quali sono gli algoritmi corretti, e decidere se costruire un modello per ciascuno di essi. Occorre tener presente che alcuni algoritmi richiedono i dati in specifici formati, perciò è spesso necessario ritornare alla fase di preparazione dei dati, prima di proseguire con la creazione del modello. La creazione del modello consiste nell impostazione dei parametri dell algoritmo e nella loro calibrazione sulla base dei dati. Evaluation Il modello deve valutato attraverso un insieme di dati di test. Se i risultati non sono soddisfacenti occorrerà riconsiderare l attività di modellazione oppure l attività di preparazione dei dati. 3 Notiamo che, a parte la scelta dei dati rilevanti, il resto delle operazioni dovrebbe già essere parte del sistema di Business Intelligence.

7 Revisione del processo Decisione sull utilizzo del modello Pianificazione del deployment Manutenzione e verifiche Revisione finale Una volta eseguita la valutazione del modello, è bene, anche in caso di risultati positivi, ricontrollare tutte le fasi del processo, soprattutto per indentificare eventuali omissioni di regole di business e per verificare la congruità dei risultati con gli obiettivi stabiliti. A questo punto è possibile decidere se utilizzare i risultati del modello nel processo di KDD, procedendo quindi con il deployment agli utenti. Deployment La fase di deployment include anche l integrazione del modello con i sistemi esistenti. Inoltre la raccolta dati, la loro preparazione e l elaborazione attraverso il modello devono essere automatizzati. Nel definire le attività di deployment occorre programmare anche l attività di manutenzione. La fase di deployment si conclude con la documentazione dell intero processo e con una revisione finale con il coinvolgimento degli utenti. La metodologia CRISP-DM ha il vantaggio di essere applicabile a qualsiasi ramo di attività e di essere indipendente dallo strumento software utilizzato. Inoltre è strettamente collegata al modello d azione della KDD. Nei paragrafi che seguono approfondiremo i punti principali relativi alla costruzione e alla valutazione di un modello di data mining. In particolare vedremo gli aspetti di preparazione dei dati, di scelta dell algoritmo e di valutazione dei risultati. La preparazione dei dati La preparazione dei dati assume un ruolo cruciale nel processo di data mining, poiché essa può influenzare in maniera sostanziale la bontà dei modelli. Il primo aspetto da considerare riguarda la qualità dei dati. Se supponiamo che i dati da utilizzare per il data mining arrivino dal data warehouse, allora possiamo dare per scontato che il processo di pulizia, integrazione e uniformazione dei dati sia già stato compiuto. Se così non fosse, occorre valutare il grado di affidabilità e completezza dei dati e porre rimedio ai problemi di qualità, pena la costruzione di modelli destinati ad essere completamente inefficaci. Esiste poi un problema legato ai valori mancanti degli attributi, che, in parte può essere sanato nel data warehouse attraverso l integrazione diverse fonti, anche esterne all azienda (si pensi all acquisto di dati demografici o relativi al territorio da banche dati specializzate). Accade però che per alcuni attributi non sia sempre possibile ottenere un valore. In questo caso, nel data warehouse, invece di presentare un valore NULL, si utilizzerà un valore di default che indica la mancanza del dato, ma questa soluzione non è ottimale per il data mining ed è da gestire al momento della preparazione dei dati. Alcuni algoritmi richiedono che i dati siano trasformati, di solito attraverso operazioni di vario genere: normalizzazioni, riduzione del numero di attributi, riclassificazione dei valori di un attributo. Costruzione del modello La costruzione del modello di data mining si articola su più fasi:

8 - La scelta dell algoritmo di calcolo. Essa è basata sull analisi del problema di data mining da risolvere. Il paragrafo che segue fornisce una descrizione dei più comuni algoritmi e delle situazioni alle quali essi si adattano. - Il completamento della fase di preparazione dei dati. Qualora l algoritmo richieda elaborazioni particolari, è necessario ultimare la fase di preparazione dei dati, con le tecniche che abbiamo trattato nel paragrafo precedente. - La scelta dei parametri base di configurazione dell algoritmo. - La suddivisione dei dati disponibili in training set e test set. Nel costruire un modello di data mining occorre operare una suddivisione dei dati disponibili in due insiemi: uno, contenente un ampia percentuale dei dati, costituisce il training set, cioè l insieme dei dati su cui l algoritmo scelto è calibrato. L altro rappresenta il test set, cioè l insieme di dati su cui si eseguirà il test del modello per verificarne la bontà. Il test set ovviamente contiene anche l attributo o gli attributi che sono il risultato dell attività predittiva del modello. In questo modo sarà possibile confrontare i dati reali con quelli previsti ed eseguire così una valutazione. La suddivisione in training set e test set dovrebbe avvenire mantenendo la stessa distribuzione degli attributi in entrambi gli insiemi di elementi, in modo che essi siano ugualmente rappresentativi. - L avvio della fase di training dell algoritmo. Nella fase di training l algoritmo analizza le relazioni nascoste nei dati e imposta il modello di data mining. Molto spesso è necessario ripetere più volte il processo di costruzione del modello al fine di provare algoritmi alternativi oppure di operare aggiustamenti sui parametri, o sulle trasformazioni del data set. Attività tipiche Le attività che tipicamente sono oggetto di un processo di data mining sono raggruppabili in categorie. Per ciascuna categoria è possibile individuare uno o più algoritmi di data mining che meglio si prestano a risolvere il problema. La tabella presenta una categorizzazione dei problemi di data mining, una breve descrizione e gli algoritmi più adatti a ciascuna categoria. Tabella 3 Problemi e algoritmi. Problema Esempio Algoritmo Stima di un attributo discreto: in questo caso si tratta di predire il valore di un particolare attributo sulla base dei valori degli altri attributi. Stimare se il destinatario di una campagna di mailing diretto acquisterà un prodotto, sulla base di dati anagrafici e comportamentali di vario genere. Decision Trees Bayesian classifier Clustering Neural Network Stima di un attributo continuo. Stimare le vendite dell'anno successivo Time Series Neural Network Ricerca di gruppi di elementi comuni nelle transazioni. Utilizzare analisi di mercato sugli acquisti per suggerire a un cliente ulteriori prodotti da acquistare. Association Rules Decision Trees

9 Ricerca di gruppi di elementi simili. Segmentare i dati demografici in gruppi, con comportamenti d acquisto simili Clustering Ricerca di anomalie nei dati Per esempio la ricerca di utilizzi fraudolenti di strumenti di pagamento, come le carte di credito. Clustering Valutazione del modello Con qualsiasi algoritmo la si realizzi, una delle operazioni più frequenti nel data mining è la classificazione: dato un certo numero di elementi che appartengono a classi diverse, ciò che vogliamo ottenere è un modello che assegni ciascun elemento alla classe corretta. Per esempio, può essere utile, prima di iniziare una campagna di vendita, classificare i prospect in due classi: quella dei probabili acquirenti e quella dei non acquirenti, in modo da concentrare gli sforzi soltanto sulla prima classe. Nell implementare un qualsiasi modello, abbiamo visto come sia necessario suddividere i dati in due insiemi: il training set e il test set. Entrambi gli insiemi devono contenere gli elementi con la corretta classificazione; il training set sarà utilizzato per la calibrazione dei parametri del modello, mentre il test set per valutare i risultati del classificatore. Teniamo sempre presente che è praticamente impossibile costruire un modello di classificazione perfetto, e che dovremo accontentarci di un modello sub ottimale. La scelta del modello da utilizzare avviene selezionando il migliore da un insieme di modelli calibrati e testati, costruiti con algoritmi e con parametri differenti. E chiara dunque la necessità di uno strumento che ci permetta di valutare la bontà di un modello e che ci permetta di confrontarlo con altri, al fine di poter scegliere tra essi il più efficace. Molti problemi di classificazione possono essere ricondotti a una classificazione binaria, cioè con sole due opzioni, dove una classe è detta classe positiva e l altra è chiamata classe negativa. Nel nostro esempio della campagna di marketing, la classe positiva è quella dei possibili acquirenti, mentre la classe negativa è rappresentata dai non acquirenti. Descriviamo i metodi per la valutazione dei modelli. La matrice di confusione La performance di un modello è determinata dal numero di predizioni corrette o, per contro, dal numero di errori di predizione. Una prima metrica per la valutazione del modello è rappresentata dalla cosiddetta matrice di confusione il cui generico elemento E ij rappresenta il numero di elementi della classe i-esima che il modello assegna, erroneamente, alla classe j-esima. Come esempio, poniamo di dover rappresentare attraverso la matrice di confusione le previsioni di un modello di classificazione dei possibili acquirenti. I dati del modello, eseguito sul test set sono inclusi nella tabella che segue. Tabella 4 Esempio di risultati di un test. Codice cliente Dato reale Previsione

10 1 Acquirente_SI Acquirente_SI 2 Acquirente_NO Acquirente_NO 3 Acquirente_NO Acquirente_NO 4 Acquirente_SI Acquirente_SI 5 Acquirente_SI Acquirente_SI 6 Acquirente_NO Acquirente_SI 7 Acquirente_NO Acquirente_NO 8 Acquirente_SI Acquirente_SI 9 Acquirente_NO Acquirente_SI 10 Acquirente_SI Acquirente_NO In questo caso la matrice di confusione è data da: Dati Reali Acquirente_SI Acquirente_SI 4 (VERI POSITIVI) Acquirente_NO 2 (FALSI POSITIVI) Predizione Acquirente_NO 1 (FALSI NEGATIVI) 3 (VERI NEGATIVI) Nella matrice di confusione abbiamo quattro quadranti che esprimono: - I veri positivi (VP), cioè i veri acquirenti, classificati come tali. - I falsi positivi (FP), cioè i non acquirenti, classificati come acquirenti dal modello. - I veri negativi (VN), cioè i non acquirenti correttamente classificati. - I falsi negativi (FN), cioè gli acquirenti, classificati come non acquirenti dal modello. Inoltre abbiamo che il numero totale di positivi è dato da P=VP+FN e che il numero totale di negativi è dato da N=FP+VN Dalla matrice possiamo ricavare alcune misure di performance: % falsi positivi = FP/N % veri positivi = VP/P Accuratezza = (VP+VN)/(P+N) Precisione = VP/(VP+FP) Bisogna fare attenzione in particolare all interpretazione della misura di accuratezza, soprattutto nel caso di classi molto sbilanciate (solitamente questi casi sono quelli più interessanti!). Se avessimo nella realtà 999 non acquirenti reali e 1 solo acquirente reale e il modello classificasse tutti come non acquirenti, avremmo l accuratezza pari a (999+0)/(999+1) = 99.9%. In realtà a noi interesserebbe soltanto la previsione dei veri acquirenti, che non si realizzerebbe mai (almeno secondo il nostro modello). Se associamo ai quadranti della matrice di confusione un ricavo derivante dalla corretta previsione o un costo che si origina dalla mancata previsione, otteniamo una matrice di costo per ciascuno dei modelli che sviluppiamo. I modelli possono così essere confrontati non solo in base alle misure proposte poco sopra, ma anche attraverso il risultato economico derivante dalla previsione. Come esempio, associamo i seguenti

11 costi e ricavi ai quadranti della matrice, ipotizzando che, in base alle previsioni, contatteremo soltanto i potenziali clienti: - Al quadrante VP associamo un margine netto di 50 per cliente - Al quadrante FP associamo un costo di 10 per ciascun cliente contattato che non si rivela essere acquirente. - Ai quadranti FN e VN associamo un risultato economico pari a 0. Il risultato dell operazione sarebbe 4*50-2*10 = 180, mostrando quindi un risultato economico positivo a fronte dell applicazione del modello. Tuttavia il risultato è molto più significativo se utilizzato per paragonare vari modelli oppure parametrizzazioni diverse dello stesso modello, al fine di determinare quello più performante. La curva ROC (Receiver Operating Characteristic) La curva ROC è uno strumento messo a punto durante la seconda guerra mondiale dagli ingegneri che si occupavano dei radar per cercare di distinguere i segnali relativi a oggetti nemici dai segnali causati da stormi di uccelli. La curva è stata impiegata in diversi campi, tra cui vi è anche il data mining. La curva ROC è ampiamente utilizzata per valutare i risultati di un modello previsionali. Per il calcolo delle curve ROC occorre che il modello produca come output oltre alla previsione anche la probabilità di realizzazione. Ciò accade in modo nativo per modelli che utilizzano algoritmi come Naïve Bayes o reti neurali, mentre per altri algoritmi è comunque possibile calcolare la probabilità con tecniche specifiche. Solitamente se la probabilità è superiore a 0.5 allora l appartenenza ad una certa classe è vera, altrimenti è falsa. La curva, mostrata in Figura 3, è disegnata ricalcolando la percentuale di falsi positivi e la percentuale di falsi negativi spostando via via la soglia di probabilità di appartenenza da 0 a 1 a piccoli intervalli. Figura 3 Esempi di tre curve ROC che descrivono modelli con performance differenti. Nel grafico ROC, il punto (0,0) rappresenta una classificazione in cui non vi sono falsi positivi, ma nemmeno veri positivi. Il punto (0,100) indica una classificazione perfetta: 0 falsi positivi e 100% veri positivi. Il punto

12 (100,100) è il risultato di una strategia in cui tutti gli elementi sono classificati come veri positivi: così facendo il tasso di falsi positivi è massimo. Come di nota dalla figura nei grafici ROC compare una retta diagonale che unisce i punti (0,0) e (100,100). Essa rappresenta un classificatore completamente casuale: i mostri modelli dovranno per lo meno presentare una curva che stia sopra a quella del classificatore casuale. Ora, utilizziamo la formula dell accuratezza e trasformiamola attraverso semplici passaggi algebrici: Accuratezza = VP+VN P+N VP = P P+(1 FP N ) %Veri Positivi P+(1 % falsi positivi) N = P+N P+N Da questa formula si ricava che: %Veri Positivi = Accuratezza (P + N) (1 %falsi positivi) N P = N P %falsi positivi + Accuratezza (P+N) N P Se visualizziamo graficamente l equazione appena determinata otteniamo un fascio di rette parallele che rappresentano diversi livelli di accuratezza. Possiamo utilizzare la retta per determinare il punto di miglior accuratezza nel modello: esso sarà quello in cui la retta è tangente alla curva ROC, come mostrato nella figura seguente. Figura4 ROC con curva di livello dell'accuratezza. Il punto di miglior accuratezza ci dice qual è la soglia di probabilità ottimale al di sopra della quale un elemento è classificato come appartenente alla classe positiva. Dunque, se ritorniamo all esempio della campagna di marketing, dovremo utilizzare il modello in questo modo:

13 - Come prima azione, eseguiamo la classificazione dei prospect in modo da determinare gli appartenenti alla classe dei probabili acquirenti (classe positiva) - Come output del modello otteniamo anche la probabilità di assegnazione alla classe. - Determiniamo il livello della soglia di probabilità ottimale attraverso la curva ROC e l equazione delle rette di accuratezza. - Selezioniamo gli elementi che appartengono alla classe dei probabili acquirenti e la cui probabilità di appartenenza è maggiore della soglia di probabilità ottimane Lift chart Il lift chart risponde, per mezzo una rappresentazione grafica, alla domanda: selezionando, secondo un certo criterio, l x% di casi nel test set, quale percentuale dei casi di veri positivi (VP) è raggiunta? In questo tipo di grafico sull asse delle ascisse poniamo le percentuali, da 0 a 100% di elementi selezionati dal test set, scelti secondo un certo ordine (tipicamente la probabilità di appartenenza alla classe positiva). Sull asse delle ordinate compare la percentuale dei veri positivi ottenuti attraverso la selezione, sul totale dei veri positivi del test set. Figura 5 Lift chart Anche nel caso del lift chart, così come abbiamo fatto per matrice di confusione, possiamo ragionare in termini di costi e ricavi. I costi possono essere suddivisi in costi fissi e costi cariabili. I costi fissi non dipendono dal numero di elementi estratti dal campione, mentre i costi variabili sono determinati da un costo unitario da moltiplicare al numero di elementi estratti dal test set. Il ricavo è dato da un valore unitario moltiplicato per il numero di veri positivi ottenuti attraverso la selezione. Sempre considerando l esempio della campagna di marketing, potremmo avere costi fissi per la campagna, indipendenti dal numero di clienti contattati; inoltre avremo un costo per ciascun contatto effettuato e un ricavo in caso di acquisizione del cliente. Contattando prima i clienti con maggior probabilità di essere veri positivi, avremo un alta percentuale di successo, che via via diminuisce, al diminuire della probabilità. Ciò significa che il guadagno ( = ricavi - costo fisso costi variabili) tenderà ad aumentare velocemente per poi assestarsi e addirittura diminuire, poiché, con una bassa probabilità di avere un falso positivo dovremo spendere molto nei contatti, prima di ottenere un ricavo. La figura seguente mostra un Profit chart ottenuto con il Data Mining add-in per Excel di Microsoft SQL Server 2008.

14 Figura 6 Profit Chart ricavato con il Data Mining add-in per Excel di Microsoft SQL Server Il profit chart proposto nell add-in di Microsoft, offre la possibilità di specificare un costo fisso, il numero di elementi della popolazione, il costo variabile, per ciascun elemento e il ricavo unitario. In output lo strumento presenta, oltre al grafico anche una tabella con i parametri impostati, il valore del profitto massimo e la soglia di probabilità. La probabilità della classificazione, come abbiamo già detto, è utilizzata per ordinare in modo decrescente gli elementi della popolazione. Il numero proposto dall add-in di Microsoft rappresenta la soglia sotto la quale non bisogna prendere più in considerazione gli elementi. Detto in altri termini, seguendo sempre il nostro esempio di classificazione dei prospect in acquirenti e non acquirenti, se la probabilità di essere acquirente è maggiore o uguale alla Probability threshold, allora possiamo contattare il prospect, altrimenti non ne vale la pena. Bibliografia A. Rezzani, Business Intelligence. Processi, metodi, utilizzo in azienda, APOGEO, 2012 Jack E. Olsen, Data Quality: The Accuracy Dimension, Morgan Kaufmann Publishers, 2003 Tamraparni Dasu, Theodore Johnson: Exploratory Data Mining and Data Cleaning, John Wiley & Sons, 2003

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Introduzione al KDD e al DATA MINING

Introduzione al KDD e al DATA MINING Introduzione al KDD e al DATA MINING Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Verso il DM: una breve analisi delle fasi del processo KDD. 1 2 Il DM: Alcune definizioni.

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

DATA MINING E DATA WAREHOUSE

DATA MINING E DATA WAREHOUSE Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com DATA MINING 1/2 Il Data

Dettagli

Costruzione di Modelli Previsionali

Costruzione di Modelli Previsionali Metodologie per Sistemi Intelligenti Costruzione di Modelli Previsionali Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como Agenda Knowledge discovery in database

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4 Pagina 2 1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4 Esempi... 4 3. Aspetti Prestazionali... 4 Obiettivi... 4 Esempi... 4 4. Gestione del Credito

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Alessandro Rezzani Abstract L articolo descrive una delle tecniche di riduzione della dimensionalità del data set: il metodo dell analisi delle componenti principali (Principal

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

modo differenziato i clienti ricadenti nelle differenti classi. Tecnica RFM Questo approccio considera, oltre al valore di fatturato (contemplato

modo differenziato i clienti ricadenti nelle differenti classi. Tecnica RFM Questo approccio considera, oltre al valore di fatturato (contemplato Metodi quantitativi per il targeting Per le piccole e medie imprese il Data Base di Marketing (DBM) è di importanza cruciale nella segmentazione della clientela e individuazione del target di interesse

Dettagli

Statistica descrittiva univariata

Statistica descrittiva univariata Statistica descrittiva univariata Elementi di statistica 2 1 Tavola di dati Una tavola (o tabella) di dati è l insieme dei caratteri osservati nel corso di un esperimento o di un rilievo. Solitamente si

Dettagli

1. Orientamento al prodotto 2. Orientamento alle vendite 3. Orientamento al mercato 4. Orientamento al marketing

1. Orientamento al prodotto 2. Orientamento alle vendite 3. Orientamento al mercato 4. Orientamento al marketing L ATTIVITA COMMERCIALE DELL AZIENDA: MARKETING Attività e processi mediante i quali l azienda è presente sul mercato reale su cui colloca i propri prodotti. Solitamente il marketing segue un preciso percorso,

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Data Mining: Applicazioni

Data Mining: Applicazioni Sistemi Informativi Universitá degli Studi di Milano Facoltá di Scienze Matematiche, Fisiche e Naturali Dipartimento di Tecnologie dell Informazione 1 Giugno 2007 Data Mining Perché il Data Mining Il Data

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Che cosa è la Validità?

Che cosa è la Validità? Validità Che cosa è la Validità? Un test è valido quando misura ciò che intende misurare. Si tratta di un giudizio complessivo della misura in cui prove empiriche e principi teorici supportano l adeguatezza

Dettagli

Data Mining a.a. 2010-2011

Data Mining a.a. 2010-2011 Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00

Dettagli

KNOWLEDGE MANAGEMENT. Knowledge Management. Knowledge: : cos è. Dispense del corso di Gestione della Conoscenza d Impresa

KNOWLEDGE MANAGEMENT. Knowledge Management. Knowledge: : cos è. Dispense del corso di Gestione della Conoscenza d Impresa KNOWLEDGE MANAGEMENT Pasquale Lops Giovanni Semeraro Dispense del corso di Gestione della Conoscenza d Impresa 1/23 Knowledge Management La complessità crescente della società, l esubero di informazioni

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Modelli matematici avanzati per l azienda a.a. 2010-2011

Modelli matematici avanzati per l azienda a.a. 2010-2011 Modelli matematici avanzati per l azienda a.a. 2010-2011 Docente: Pasquale L. De Angelis deangelis@uniparthenope.it tel. 081 5474557 http://www.economia.uniparthenope.it/siti_docenti P.L.DeAngelis Modelli

Dettagli

LA CONTABILITA INTERNA. La contabilità interna

LA CONTABILITA INTERNA. La contabilità interna LA CONTABILITA INTERNA 1 LA CONTABILITA ANALITICA La gestione dei costi aziendali richiede informazioni più dettagliate rispetto a quelle offerte dalla contabilità esterna: è, infatti, necessario individuare

Dettagli

TiQ Green Energy Management: La soluzione IT per il continuo miglioramento dell utlizzo dell energia. You cannot Manage What you cannot Measure

TiQ Green Energy Management: La soluzione IT per il continuo miglioramento dell utlizzo dell energia. You cannot Manage What you cannot Measure TiQ Green Energy Management: La soluzione IT per il continuo miglioramento dell utlizzo dell energia You cannot Manage What you cannot Measure 1. Moduli di GEM Energy Monitoring Misurare è il primo passo

Dettagli

Ciclo di vita dimensionale

Ciclo di vita dimensionale aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

La conoscenza del Cliente come fonte di profitto

La conoscenza del Cliente come fonte di profitto La conoscenza del Cliente come fonte di profitto Giorgio Redemagni Responsabile CRM Convegno ABI CRM 2003 Roma, 11-12 dicembre SOMMARIO Il CRM in UniCredit Banca: la Vision Le componenti del CRM: processi,

Dettagli

PREVEDERE LE VENDITE PER IL REVENUE MANAGEMENT

PREVEDERE LE VENDITE PER IL REVENUE MANAGEMENT Lezione n. 2 - PREVISIONE 1 PREVEDERE LE VENDITE PER IL REVENUE MANAGEMENT AUTORI Paolo Desinano Centro Italiano di Studi Superiori sul Turismo di Assisi Riccardo Di Prima Proxima Service INTRODUZIONE

Dettagli

Presentazione. Risorse Web. Metodi Statistici 1

Presentazione. Risorse Web. Metodi Statistici 1 I-XVI Romane_ 27-10-2004 14:25 Pagina VII Prefazione Risorse Web XI XIII XVII Metodi Statistici 1 Capitolo 1 Tecniche Statistiche 3 1.1 Probabilità, Variabili Casuali e Statistica 3 1.1.1 Introduzione

Dettagli

Data Mining e Marketing Intelligence

Data Mining e Marketing Intelligence Data Mining e Marketing Intelligence Alberto Saccardi * Abstract L evoluzione tecnologica ha reso possibile la costruzione di basi dati dedicate per la Marketing Intelligence, con la disponibilità di patrimoni

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Gestione campagne di Marketing per il C.R.M.

Gestione campagne di Marketing per il C.R.M. Caratteristiche principali: Preselezione di nominativi basati scremandoli con opportuni filtri basati su informazioni di rischio provenienti da fonti esterne. Analisi grafica tramite sintetiche distribuzioni

Dettagli

CATALOGO DEI CORSI DI FORMAZIONE

CATALOGO DEI CORSI DI FORMAZIONE CATALOGO DEI CORSI DI FORMAZIONE NextInt Training Center - formazione@nextint.it NextInt Via Nino Oxilia 22 20127 Milano (MI) Tel. +30 02 36572330/332 formazione@nextint.it www.nextint.it CHI SIAMO NextInt

Dettagli

Il Business Plan. Concetti base

Il Business Plan. Concetti base Il Business Plan Concetti base LA PIANIFICAZIONE E il processo con il quale Si stabiliscono gli obiettivi da raggiungere nel periodo (3-5 anni) Si individuano le risorse (umane e finanziarie) e gli strumenti

Dettagli

7. FONTI DEI DATI, DIMENSIONI DI ANALISI E INDICATORI STATISTICI

7. FONTI DEI DATI, DIMENSIONI DI ANALISI E INDICATORI STATISTICI 7. FONTI DEI DATI, DIMENSIONI DI ANALISI E INDICATORI STATISTICI 7.1. FONTI DEI DATI Per la realizzazione dell atlante sanitario della Regione Piemonte sono state utilizzate le basi dati dei seguenti sistemi

Dettagli

LEZIONE 3 CUSTOMER RELATIONSHIP ICT GOVERNANCE. ECONOMIA dell ICT ECONOMIA DELL ICT 1. Facoltà di Ingegneria Università di Roma Tor Vergata

LEZIONE 3 CUSTOMER RELATIONSHIP ICT GOVERNANCE. ECONOMIA dell ICT ECONOMIA DELL ICT 1. Facoltà di Ingegneria Università di Roma Tor Vergata LEZIONE 3 CUSTOMER RELATIONSHIP MANAGEMENT (CRM) ICT GOVERNANCE ECONOMIA dell ICT ECONOMIA DELL ICT 1 Sviluppo storico del CRM 50 60 Avvento dei brand items e delle agenzie di pubblicità 70 Avvento del

Dettagli

CUSTOMER RELATIONSHIP MANAGEMENT

CUSTOMER RELATIONSHIP MANAGEMENT V I N F I N I T Y P R O J E C T CUSTOMER RELATIONSHIP MANAGEMENT Infinity CRM Il Cliente a 360 CRM COMMUNICATION CMS E COMMERCE B2B AD HOC E COMMERCE B2C ACQUISIZIONE PROTOCOLLAZIONE CLASSIFICAZIONE VERSIONING

Dettagli

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag. 109. Questa versione si applica a IBM SPSS

Dettagli

IBM SPSS Direct Marketing 20

IBM SPSS Direct Marketing 20 IBM SPSS Direct Marketing 20 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note legali a pag. 109. Questa versione si applica a IBM

Dettagli

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager è una soluzione completa

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA TRIENNALE Cluster Analysis per la segmentazione della clientela utilizzando

Dettagli

MICROMARKETING DI SUCCESSO SFRUTTANDO DAVVERO IL CUSTOMER DATABASE

MICROMARKETING DI SUCCESSO SFRUTTANDO DAVVERO IL CUSTOMER DATABASE MICROMARKETING DI SUCCESSO SFRUTTANDO DAVVERO IL CUSTOMER DATABASE Innovative tecniche statistiche che consentono di mirare le azioni di marketing, vendita e comunicazione valorizzando i dati dei database

Dettagli

K Venture Corporate Finance. Self Control. Il futuro che vuoi. Sotto controllo!

K Venture Corporate Finance. Self Control. Il futuro che vuoi. Sotto controllo! K Venture Corporate Finance Self Control K Venture Corporate Finance K Venture Corporate Finance è una società di consulenza direzionale specializzata nel controllo di gestione, nella contabilità industriale,

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Valutare un test. Affidabilità e validità di un test. Sensibilità e specificità

Valutare un test. Affidabilità e validità di un test. Sensibilità e specificità Valutare un test 9 Quando si sottopone una popolazione ad una procedura diagnostica, non tutti i soggetti malati risulteranno positivi al test, così come non tutti i soggetti sani risulteranno negativi.

Dettagli

IBM SPSS Modeler 15 Guida alla modellazione in-database

IBM SPSS Modeler 15 Guida alla modellazione in-database IBM SPSS Modeler 15 Guida alla modellazione in-database Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag.. Questa versione

Dettagli

Guida CRISP-DM di IBM SPSS Modeler

Guida CRISP-DM di IBM SPSS Modeler Guida CRISP-DM di IBM SPSS Modeler Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag. 44. Questa versione si applica a IBM

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

Business Intelligence. Il data mining in

Business Intelligence. Il data mining in Business Intelligence Il data mining in L'analisi matematica per dedurre schemi e tendenze dai dati storici esistenti. Revenue Management. Previsioni di occupazione. Marketing. Mail diretto a clienti specifici.

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

STRATEGIA DI TRADING. Turning Points

STRATEGIA DI TRADING. Turning Points STRATEGIA DI TRADING Turning Points ANALISI E OBIETTIVI DA RAGGIUNGERE Studiare l andamento dei prezzi dei mercati finanziari con una certa previsione su tendenze future Analisi Tecnica: studio dell andamento

Dettagli

Analisi delle Promozioni

Analisi delle Promozioni Analisi delle Promozioni Obiettivi Data mining per migliorare la qualità dello stoccaggio dei prodotti in promozione minimizzando quindi rotture di stock e giacenze di magazzino. Per ogni promozione: Predizione

Dettagli

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government

Dettagli

Alberi Decisionali di Vito Madaio

Alberi Decisionali di Vito Madaio Tecnica degli Alberi Decisionali Cosa è un albero decisionale Un albero decisionale è la dimostrazione grafica di una scelta effettuata o proposta. Non sempre ciò che istintivamente ci appare più interessante

Dettagli

STOCK CUTTER. Previsioni. della domanda. Pianificazione delle scorte. Programmazione ordini a fornitori LOGISTIC C O N S U L T I N G

STOCK CUTTER. Previsioni. della domanda. Pianificazione delle scorte. Programmazione ordini a fornitori LOGISTIC C O N S U L T I N G Previsioni della domanda Pianificazione delle scorte Programmazione ordini a fornitori LOGISTIC C O N S U L T I N G Lo scenario nel quale le aziende si trovano oggi ad operare è spesso caratterizzato da

Dettagli

Corso di Analisi di bilancio II A.A. 2010-2011. L analisi dei costi. di Francesco Giunta

Corso di Analisi di bilancio II A.A. 2010-2011. L analisi dei costi. di Francesco Giunta Corso di Analisi di bilancio II A.A. 2010-2011 L analisi dei costi di Francesco Giunta I COSTI Il raggiungimento di condizioni di equilibrio economico impone di tenere sotto costante controllo i costi.

Dettagli

Modelli probabilistici

Modelli probabilistici Modelli probabilistici Davide Cittaro e Marco Stefani Master bioinformatica 2003 Introduzione L obiettivo di presente lavoro è la classificazione di un insieme di proteine, definite da 27 valori numerici,

Dettagli

Case Study Case Study Case Study Case Study Case Study

Case Study Case Study Case Study Case Study Case Study Il Gruppo ALFA REFRATTARI, attivo nel settore dell edilizia dagli anni 70, è leader nel campo dei prodotti refrattari (caminetti, barbecue, forni, malte, rivestimenti, ecc.). E un gruppo in costante espansione

Dettagli

Mexal Controllo di Gestione e Gestione Commesse

Mexal Controllo di Gestione e Gestione Commesse Mexal Controllo di Gestione e Gestione Commesse Controllo di Gestione e Gestione Commesse TARGET DEL MODULO Il modulo Controllo di Gestione e Gestione Commesse di Passepartout Mexal è stato progettato

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

GESTIONE COMMESSE IMPIANTI

GESTIONE COMMESSE IMPIANTI GESTIONE COMMESSE IMPIANTI Dedicato ad Aziende di Impianti Elettrici, Idraulici, etc. Lo scopo del progetto è quello di : Migliorare la gestione dei preventivi Rendere più flessibili le analisi dei costi

Dettagli

PBI Passepartout Business Intelligence

PBI Passepartout Business Intelligence PBI Passepartout Business Intelligence TARGET DEL MODULO Il prodotto, disponibile come modulo aggiuntivo per il software gestionale Passepartout Mexal, è rivolto alle Medie imprese che vogliono ottenere,

Dettagli

UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA

UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA TESI DI LAUREA IN STATISTICA PER LE RICERCHE SPERIMENTALI E DI MERCATO L ANALISI STATISTICA DI DATI

Dettagli

Strumenti di studio della capacità promozionale: misurare il Permissible Acquisition Outlay (PAO) di un nuovo cliente

Strumenti di studio della capacità promozionale: misurare il Permissible Acquisition Outlay (PAO) di un nuovo cliente Strumenti di studio della capacità promozionale: misurare il Permissible Acquisition Outlay (PAO) di un nuovo cliente La comunicazione con i propri clienti (siano essi attuali che potenziali) si avvale

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

20 People. 33 anni Età media 80% ISO 9001 Certificazione Sviluppo modelli predittivi. About Pangea Formazione

20 People. 33 anni Età media 80% ISO 9001 Certificazione Sviluppo modelli predittivi. About Pangea Formazione Company Overview About Pangea Formazione About Pangea Formazione 20 People 33 anni Età media 80% Ph.D. ISO 9001 Certificazione Sviluppo modelli predittivi Progettiamo modelli statistico-matematici a supporto

Dettagli

RELAZIONE E COMUNICAZIONE. Sviluppare la gestione delle relazioni con i clienti grazie a:

RELAZIONE E COMUNICAZIONE. Sviluppare la gestione delle relazioni con i clienti grazie a: RELAZIONE E COMUNICAZIONE Sviluppare la gestione delle relazioni con i clienti grazie a: Microsoft Office System 2007 Windows Vista Microsoft Exchange Server 2007 è ancora più potente ed efficace, grazie

Dettagli

Simulazione di una catena logistica

Simulazione di una catena logistica Simulazione di una catena logistica La logistica aziendale richiede l organizzazione di approvvigionamento e trasporto dei prodotti e dei servizi. La catena di distribuzione, supply chain, comprende il

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

MICROSOFT DYNAMICS: SOLUZIONI GESTIONALI PER L AZIENDA

MICROSOFT DYNAMICS: SOLUZIONI GESTIONALI PER L AZIENDA MICROSOFT DYNAMICS: SOLUZIONI GESTIONALI PER L AZIENDA Microsoft Dynamics: soluzioni gestionali per l azienda Le soluzioni software per il business cercano, sempre più, di offrire funzionalità avanzate

Dettagli

Optimized Technology. March 2008. www.neodatagroup.com - info@neodatagroup.com

Optimized Technology. March 2008. www.neodatagroup.com - info@neodatagroup.com XML Banner Feeding Optimized Technology March 2008 www.neodatagroup.com - info@neodatagroup.com Tel: +39 095 7226111 - Fax: +39 095 7374775 Varese: Via Bligny, 16 21100 - Milano: Via Paolo da Cannobio,

Dettagli

E-marketing Intelligence e personalizzazione

E-marketing Intelligence e personalizzazione E-marketing Intelligence e personalizzazione Nel mondo degli affari di oggi comprendere e sfruttare il potere delle 4 P del marketing (product, price, place e promotion) è diventato uno dei fattori più

Dettagli

Dynamic Warehousing: la tecnologia a supporto della Business Intelligence 2.0. Giulia Caliari Software IT Architect

Dynamic Warehousing: la tecnologia a supporto della Business Intelligence 2.0. Giulia Caliari Software IT Architect Dynamic Warehousing: la tecnologia a supporto della Business Intelligence 2.0 Giulia Caliari Software IT Architect Business Intelligence: la nuova generazione Infrastruttura Flessibilità e rapidità di

Dettagli

SMS Strategic Marketing Service

SMS Strategic Marketing Service SMS Strategic Marketing Service Una piattaforma innovativa al servizio delle Banche e delle Assicurazioni Spin-off del Politecnico di Bari Il team Conquist, Ingenium ed il Politecnico di Bari (DIMEG) sono

Dettagli

Business Intelligence & Data Mining. In ambiente Retail

Business Intelligence & Data Mining. In ambiente Retail Business Intelligence & Data Mining In ambiente Retail Business Intelligence Platform DATA SOURCES STAGING AREA DATA WAREHOUSE DECISION SUPPORT Application Databases Packaged application/erp Data DATA

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

1. Introduzione. 2. I metodi di valutazione

1. Introduzione. 2. I metodi di valutazione 1. Introduzione La Riserva Sinistri è l accantonamento che l impresa autorizzata all esercizio dei rami danni deve effettuare a fine esercizio in previsione dei costi che essa dovrà sostenere in futuro

Dettagli

CRM Strategico Soluzione evoluta per aumentare vendite e soddisfazione dei clienti

CRM Strategico Soluzione evoluta per aumentare vendite e soddisfazione dei clienti CRM Strategico Soluzione evoluta per aumentare vendite e soddisfazione dei clienti Canali e Core Banking Finanza Crediti Sistemi Direzionali Sistemi di pagamento e Monetica CRM Strategico Cedacri ha sviluppato

Dettagli

Sistemi Informativi Aziendali I

Sistemi Informativi Aziendali I Modulo 6 Sistemi Informativi Aziendali I 1 Corso Sistemi Informativi Aziendali I - Modulo 6 Modulo 6 Integrare verso l alto e supportare Managers e Dirigenti nell Impresa: Decisioni più informate; Decisioni

Dettagli

Il libro affronta le tematiche di Demand Planning secondo differenti punti di vista, fralorointegrati:

Il libro affronta le tematiche di Demand Planning secondo differenti punti di vista, fralorointegrati: Introduzione Questo volume descrive i processi di business, le metodologie gestionali di supporto ed i modelli matematici per l analisi, la previsione ed il controllo della domanda commerciale, relativa

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

idw INTELLIGENT DATA WAREHOUSE

idw INTELLIGENT DATA WAREHOUSE idw INTELLIGENT DATA WAREHOUSE NOTE CARATTERISTICHE Il modulo idw Amministrazione Finanza e Controllo si occupa di effettuare analisi sugli andamenti dell azienda. In questo caso sono reperite informazioni

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Data Mining per la Business Intelligence

Data Mining per la Business Intelligence Data Mining per la Business Intelligence Casi di studio M. Nanni, KDD Lab, ISTI-CNR, Pisa Draft 18-04-2006 2 Indice 1 Customer Segmentation 5 1.1 Obiettivi................................ 5 1.2 Processo

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli