DATA MINING E DATA WAREHOUSE



Documenti analoghi
Data Warehousing (DW)

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Data Mining e Analisi dei Dati

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Data Mining a.a

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Data mining e rischi aziendali

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

Business Intelligence CRM

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

TECNICO SUPERIORE DEI TRASPORTI E DELL INTERMODALITÀ

Data warehouse Introduzione

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

I sistemi di reporting e i rapporti direzionali

UNIVERSITÀ DEGLI STUDI DI PADOVA

Sistemi di supporto alle decisioni

Marketing relazionale

CRM / WEB CRM CUSTOMER RELATIONSHIP MANAGEMENT

Database. Si ringrazia Marco Bertini per le slides

Anno scolastico 2015 / Piano di lavoro individuale. ITE Falcone e Borsellino. Classe: IV ITE. Insegnante: DEGASPERI EMANUELA

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

PIANO DI LAVORO ANNUALE DEL DIPARTIMENTO DI MATERIA DIPARTIMENTO DI INFORMATICA INDIRIZZO TECNICO SCIENTIFICO NUCLEI FONDAMENTALI DI CONOSCENZE

B C I un altro punto di vista Introduzione

Le Basi di Dati. Le Basi di Dati

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

Valutare gli esiti di una consultazione online

GESTIONE DEL MOVIMENTO DEL PERSONALE IN AMBIENTE INTRANET. Open System s.r.l.

MANUALE DELLA QUALITÀ Pag. 1 di 6

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

MASTER UNIVERSITARIO

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

CRM / WEB CRM CUSTOMER RELATIONSHIP MANAGEMENT

ISTITUTO TECNICO ECONOMICO MOSSOTTI

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Outsourcing. 1. Orienta Direct Software

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Organizzazione delle informazioni: Database

Relazione sul data warehouse e sul data mining

Convegno 6 giugno 2013 Federlazio Frosinone

GUIDA - Business Plan Piano d impresa a 3/5 anni

Analisi e catalogazione automatica dei Curriculum Vitae

Dispensa di database Access

Analisi dei requisiti e casi d uso

Ciclo di vita dimensionale

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

L intelligence commerciale per il governo della complessità distributiva: l approccio adottato in BNL

Il Dipartimento individua conoscenze, abilità e competenze in uscita nel biennio e nel triennio ripartite come segue:

Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering

Cosa è un foglio elettronico

1. BASI DI DATI: GENERALITÀ

Sistemi informativi secondo prospettive combinate

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Programmazione per la disciplina Informatica PROGRAMMAZIONE DI MATERIA: INFORMATICA SECONDO BIENNIO AMMINISTRAZIONE FINANZA E MARKETING

Dal dato alla Business Information!

Raggruppamenti Conti Movimenti

Il database management system Access

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

È evidente dunque l'abbattimento dei costi che le soluzioni ASP permettono in quanto:

MATERIA: INFORMATICA CLASSI: PRIME TERZE QUARTE SECONDE QUINTE

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

Introduzione al Risk Management L approccio Kirey. FondiWeb. per la gestione amministrativa dei Fondi Pensione

DSCube. L analisi dei dati come strumento per i processi decisionali

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

Generazione Automatica di Asserzioni da Modelli di Specifica

Opportunity. Il nostro valore aggiunto nella gestione della fidelizzazione

ISTITUTO TECNICO COMMERCIALE STATALE ABBA - BALLINI

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

DATAMORFOSI. E la sintesi della strategia di prodotto di Webgate400.

Dall idea al business plan

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Training sulle soluzioni SAP BusinessObjects BI4

Evidenziare le modalità con le quali l azienda agrituristica produce valore per i clienti attraverso la gestione dei propri processi.

Ibpm è lo strumento per la gestione dei processi, dalla modellazione, all esecuzione, al monitoraggio.

Il catalogo MARKET. Mk6 Il sell out e il trade marketing: tecniche, logiche e strumenti

[SOLUZIONI INNOVATIVE] Casi di studio sulle pratiche di innovazione

Introduzione alla Business Intelligence

SISTEMI INFORMATIVI AZIENDALI

La suite Pentaho Community Edition

Anno scolastico Programmazione Classe Quarta Indirizzo Finanza e Marketing

Nodi concettuali essenziali della disciplina (Saperi essenziali)

Nuova funzione di ricerca del sito WIKA.

Modelli matematici avanzati per l azienda a.a

KPMG & Dipartimento di Economia Politica e Metodi Quantitativi Università degli Studi di Pavia Progetto studio di sistemi di Data Mining

DBMS. Esempi di database. DataBase. Alcuni esempi di DBMS DBMS. (DataBase Management System)

PROFILO FORMATIVO Profilo professionale e percorso formativo

C3 indirizzo Elettronica ed Elettrotecnica Profilo

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

Big Data e archivi dell Amministrazione finanziaria: metodologie innovative di analisi e integrazione, potenzialità e limiti

LE RICERCHE DI MERCATO

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

Sistemi Informativi e Basi di Dati

WebBi S.r.l offre consulenza e soluzioni per le seguenti aree: Data Warehousing. Business Intelligence. Disegno di architetture integrate

PIANO DI LAVORO. Prof. BRACCINI MARUSCA DISCIPLINA: MARKETING. Classe 5 Sezione CLM

LEAD GENERATION PROGRAM

Transcript:

Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com

DATA MINING 1/2 Il Data Mining è il processo di esplorazione ed analisi, con strumenti automatici e semi-automatici, di grandi quantità di dati, al fine di scoprire strutture e regole significative L estrazione di dati ha duplice valenza: Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi. Un dato può essere significativo o irrilevante a seconda del tipo di applicazione in cui si intende operare.

DATA MINING 2/2 In sostanza il data mining è l'analisi matematica eseguita su database di grandi dimensioni Questo processo, noto anche col nome KDD (Knowledge Discovery in Databases), consente di estrarre conoscenza, in termini di informazioni significative ed immediatamente utilizzabili, da grandi moli di dati, tramite l applicazione di particolari tecniche ed algoritmi.

ESEMPI Che cosa non è estrazione di dati? Cercare un numero di telefono nell'elenco; Fare una ricerca in Internet su "vacanze alle Maldive". Che cosa è estrazione di dati? Scoprire che alcuni cognomi (Benetton, Troncon, Cavasin) sono molto comuni in specifiche aree dell'italia; Fare una ricerca nel web su una parola chiave e classificare i documenti trovati secondo un criterio semantico (p. es. "corriere": nome di giornale, professione, ecc.). I fattori principali che hanno contribuito allo sviluppo del data mining sono: le grandi accumulazioni di dati in formato elettronico, il data storage poco costoso, i nuovi metodi e tecniche di analisi (apprendimento automatico, riconoscimento di pattern). Le tecniche di data mining sono fondate su specifici algoritmi. I pattern identificati possono essere, a loro volta, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.

PRINCIPALI APPLICAZIONI IN CAMPO ECONOMICO- FINANZIARIO 1/2 Segmentazione della Clientela (Database Marketing): applicazione di tecniche di clustering per individuare i raggruppamenti impliciti nei dati, omogenei in termini di comportamento d acquisto e di caratteristiche socio-demografiche; Customer Retention: applicazione di tecniche previsive per individuare i clienti a rischio di abbandono; Fraud Detection: individuazione di comportamenti fraudolenti; Analisi delle Associazioni (market basket analysis): individuazione dei prodotti acquistati congiuntamente; Sequential Patterns: individuazione di comportamenti ricorrenti in sequenze temporali di eventi;

PRINCIPALI APPLICAZIONI IN CAMPO ECONOMICO- FINANZIARIO 2/2 Competitive Intelligence: applicazione di tecniche di clustering a documenti estratti da banche dati internazionali di tipo tecnicoscientifico volte ad individuare le tecnologie emergenti, le loro relazioni, l evoluzione temporale e le aziende coinvolte; Analisi Testuale (text mining): individuazione degli argomenti trattati da un set di documenti e delle relazioni tra argomenti; L'utilizzo del data mining nella ricerca di mercato è volto ad ampliare la conoscenza su cui basare i processi decisionali. Nel contesto aziendale il data mining è considerato parte del processo che porta alla creazione di un data warehouse. Un pattern non è altro che la rappresentazione delle relazioni chiave che vengono scoperte durante il processo di estrazione dati: sequenze ripetute, omogeneità, emergenza di regole.

LE FASI DI UN PROGETTO 1/2 Si intende per progetto, in questo contesto, l applicazione di tecniche di data mining in un ambito specifico e circoscritto, per il raggiungimento di uno specifico obiettivo. Ogni progetto si articola nelle seguenti fasi: Individuazione delle fonti di dati Estrazione / acquisizione dei dati (ed integrazione, se provenienti da fonti o data bases diversi) Pre-processing (Pulizia dei dati - Analisi esplorative - Selezione - Trasformazione - Formattazione) Data Mining (Scelta dell'algoritmo - Individuazione dei parametri - Elaborazione - Valutazione del modello) Interpretazione / valutazione dei risultati Rappresentazione dei risultati

LE FASI DI UN PROGETTO 2/2 Il processo ora descritto è di tipo iterativo: la fase di valutazione dei risultati può infatti portare a ripercorrere alcune delle fasi precedenti

TEXT MINING Il text mining è una particolare applicazione che consente di individuare sequenze di parole (pattern) che accomunano e caratterizzano un insieme di documenti e che consentono perciò il raggruppamento tematico. Questo tipo di applicazione è particolarmente utile quando si deve analizzare il contenuto di una collezione di documenti (anche provenienti da fonti eterogenee). L individuazione di gruppi tematici consente di dare un organizzazione all informazione disponibile e di individuare argomenti minori, che anche ad una lettura attenta potrebbero sfuggire. Le relazioni, inoltre, mettono in evidenza legami tra argomenti apparentemente separati ma che hanno una terminologia comune. Negli ultimi anni ha avuto un notevole sviluppo, a causa dei progressi delle tecniche di elaborazione del linguaggio naturale (NLP in inglese), della disponibilità di applicazioni complesse attraverso gli Application Service Provider (ASP) e dell'interesse verso le tecniche automatiche di gestione della lingua mostrato sia dagli accademici, sia dai produttori di software, sia dai gestori dei motori di ricerca

ALCUNI SOFTWARE DI DATA MINING SPSS: SPSS Clementine SAS: SAS Enterprise Miner e SAS Text Miner R Oracle Data Miner Microsoft SQL Server: strumenti di data mining del DBMS prodotto da Microsoft Weka, datamining in Java Orange Canvas: Software Opensource per data mining sviluppato in python

DATA WAREHOUSE 1/2 Un Data Warehouse è un archivio informatico contenente i dati di un'organizzazione. I DW sono progettati per consentire di produrre facilmente relazioni ed analisi. William H. Inmon, colui che ha coniato il termine DW, lo definisce come una raccolta di dati: Integrata: requisito fondamentale di un DW è l'integrazione dei dati raccolti, dal momento che in esso confluiscono dati provenienti da più sistemi transazionali e da fonti esterne; Orientata al soggetto: il DW è orientato a temi aziendali specifici piuttosto che alle applicazioni o alle funzioni. In esso i dati vengono archiviati in modo da essere facilmente letti o elaborati dagli utenti. L'obiettivo, quindi, è quello di fornire dati organizzati in modo tale da favorire la produzione di informazioni; Variabile nel tempo: i dati archiviati all'interno di un DW coprono un orizzonte temporale molto più esteso rispetto a quelli archiviati in un sistema operativo. Ciò differisce da quanto si verifica in un sistema transazionale, nel quale i dati corrispondono sempre ad una situazione aggiornata, solitamente incapace di fornire un quadro storico del fenomeno analizzato;

DATA WAREHOUSE 2/2 Non volatile: tale caratteristica indica la non modificabilità dei dati contenuti nel DW che consente accessi in sola lettura. Ciò comporta una semplicità di progettazione del database rispetto a quella di un'applicazione transazionale. Il data warehouse, quindi, descrive il processo di acquisizione, trasformazione e distribuzione di informazioni presenti all'interno o all'esterno delle aziende come supporto ai decision maker. Esso si differenzia in modo sostanziale dai normali sistemi gestionali che, al contrario, hanno il compito di automatizzare le operazioni di routine.

ARCHITETTURA DI UN DATA WAREHOUSE 1/3 Data transformation layer: L'architettura parte dall'insieme di applicazioni che svolgono l'attività di estrazione, trasformazione e caricamento dei dati dai sistemi transazionali che alimentano il data warehouse (processo ETL: Extraction, Transformation, Loading ); Data preparation and storage layer: Una volta che i dati hanno superato il transformation layer, essi vengono stoccati in questo livello architetturale per consentire la creazione di sintesi informative per gli utenti (data mart e aggregazioni); Data interpretation and analysis layer: A questo livello si trovano oggetti tra loro molto diversi per funzione e tecnologia. Le funzionalità base espletate da questo livello architetturale sono: Aggregazione, funzionalità che provvede a costruire sintesi decisionali partendo dai dati di dettaglio presenti nel layer precedente; Analisi, la quale consente di effettuare indagini sugli aggregati costruiti dal sistema. Tipicamente le funzionalità di analisi di un data warehouse si appoggiano su una tecnologia di tipo OLAP (On-Line Analytical Processing).

ARCHITETTURA DI UN DATA WAREHOUSE 2/3 Data presentation layer: Questo livello contiene i sistemi di presentazione delle informazioni agli utenti. I sistemi appartenenti a questo livello architetturale possono essere: strumenti specialistici di Business Intelligence: in questa categoria, molto vasta in termini di soluzioni presenti sul mercato, troviamo strumenti per costruire query, strumenti di navigazione OLAP; strumenti di Office Automation: gli strumenti ordinari del lavoro quotidiano, come word processor e fogli elettronici. Questa è una soluzione rassicurante per gli utenti che si avvicinano per la prima volta al data warehouse, in quanto non sono costretti ad imparare nuovi strumenti complessi; strumenti di grafica e publishing: gli strumenti di Business Intelligence sono capaci di generare grafici e tabelle per i propri utenti, la soluzione in oggetto serve sostanzialmente ad evitare inefficienti doppi passaggi.

ARCHITETTURA DI UN DATA WAREHOUSE 3/3

I DATI DI UN DATA WAREHOUSE Dati attuali di dettaglio: sono i dati al massimo livello di dettaglio che si ritiene possa essere utile ai processi decisionali, sulla base delle esigenze note e di quelle ragionevolmente prevedibili; Dati storici di dettaglio: i dati di dettaglio che superano la finestra temporale del dato "attuale" ma che rientrano comunque nella finestra temporale del data warehouse vengono collocati su supporti meno impegnativi e costosi, ma anche accessibili meno comodamente; Dati aggregati: la presenza dei dati aggregati nel data warehouse deriva da considerazioni di efficienza e praticità nella risposta alle richieste degli utenti; infatti tutte le informazioni ricavabili dai dati aggregati sono in teoria ricavabili dai dati di dettaglio, ma ciò richiederebbe di volta in volta il loro ri-calcolo; Metadati (dati su altri dati): è l'informazione che descrive un insieme di dati, indicandone provenienza, utilizzo, valore o funzione del dato. Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti i dati che si riferiscono al libro;

APPLICAZIONI DEL DATA WAREHOUSE 1/2 Controllo di gestione: In questo caso il data warehouse viene utilizzato sostanzialmente come piattaforma di reporting e analisi di redditività; Risk e Asset Management: l'analisi e la simulazione dei portafogli e dei relativi rischi. In questo caso il data warehouse va dotato di strumenti di analisi avanzati e basati su algoritmi statistici di analisi e simulazione; Supporto alle vendite: In questo caso il database di marketing costituisce una base di informazioni fondamentale per indirizzare correttamente campagne e iniziative promozionali o per attivare servizi avanzati di customer care ; Sistema informativo di marketing: tecnologia più idonea nel momento in cui la conoscenza in oggetto è costituita prevalentemente da informazioni strutturate e preferibilmente numeriche; Supporto al Call Center: nel caso in cui le richieste non siano di tipo strutturato e quindi risolvibili con la classica interrogazione da terminale;

APPLICAZIONI DEL DATA WAREHOUSE 2/2 Knowledge Base: stesso discorso valido per il marketing; Engineering di prodotto: piattaforma decisionale per l'analisi e la concettualizzazione di nuovi prodotti da offrire alla clientela e/o per aggredire nuovi mercati o segmenti di mercato, se esso è dotato oltre che di strumenti di analisi, anche di ambienti di simulazione e di testing di nuove soluzioni; e-business: consente di cogliere dinamiche all'interno di rilevanti masse di transazioni on-line, inoltre l'informazione può essere uno strumento di supporto o l'oggetto stesso della transazione.