Sistemi informativi aziendali struttura e processi

Documenti analoghi
I Componenti del processo decisionale 7

Data Science A.A. 2018/2019

Modelli matematici e Data Mining

I sistemi di reporting e i rapporti direzionali

Statistica multivariata 27/09/2016. D.Rodi, 2016

Introduzione al data mining. Sistemi di elaborazione delle informazioni 2 Anno Accademico Prof. Mauro Giacomini

SISTEMI INFORMATIVI AZIENDALI

Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

Data Journalism. Analisi dei dati. Angelica Lo Duca

Riconoscimento automatico di oggetti (Pattern Recognition)

Informatica per le discipline umanistiche 2 lezione 11

Standard per Data Mining

1. EVOLUZIONE DELLE TECNOLOGIE DI ANALISI DEI DATI

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Sistemi informativi aziendali struttura e processi

Analisi dei dati. analisi dei dati 1

Corso di Informatica. Software di produttività personale e database. Ing Pasquale Rota

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

BICOOP Churn Analisys

Pre-elaborazione dei dati (Data pre-processing)

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Tecnologie, strumenti e processi alle informazioni e l estrazione della conoscenza

Laboratorio di Sistemi Informativi Aziendali a.a

Sistema informativo. informazionale

Gestione del workflow

Esplorazione grafica di dati multivariati. N. Del Buono

MASTER UNIVERSITARIO

Architetture di Data Warehouse. PDF created with pdffactory trial version

Il modello multidimensionale. Per le slides si ringrazia il Prof. Stefano Rizzi ( e il Dott.

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

Indice. Prefazione. Capitolo 1 Introduzione al data warehousing 1

EcoManager Web. EcoManager SERVER

CHI SIAMO COME. COSA Capendo esigenze, obiettivi e preoccupazioni attraverso un approccio analitico, per offrire informazioni utili e sensate.

Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval

Introduzione alle Reti Neurali Artificiali

informazionale informativo Sistema Operazionale informativo Sistema Report Relazioni Informazione operativa

Dall intuizione alla conoscenza

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Dipartimento di Scienze Umane Corso di studi in Marketing & digital communication. Project work. Data Mining e IT. Introduzione al corso

Regole di associazione

MODULO 1: EQUAZIONI E DISEQUAZIONI 15 ore 1 quadrimestre

L ANALISI DEI DATI. EuroConsulting S.r.l. Consulenza di Direzione e Organizzazione Aziendale

Alberi di Regressione

Basi di dati attive. Una base di dati è ATTIVA quando consente la definizione e la gestione di regole di produzione (regole attive o trigger).

Data mining per le scienze sociali

Lezione introduttiva su reti neurali e SVM Veronica Piccialli. Corso di Ottimizzazione a.a (seconda parte)

SISTEMI INFORMATIVI GEOGRAFICI IN GEO- LOGIA

Metodi supervisionati di classificazione

DATA MINING. Cos'è il Data Mining: Traduzione letterale: Clustering e Reti di Kohonen

Data mining: classificazione

Fondamenti di Informatica e Programmazione

Data Science A.A. 2018/2019

Che cosa è la statistica oggi?

Misura della performance di ciascun modello: tasso di errore sul test set

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Interpolazione Statistica

Apprendimento di Reti Bayesiane

Statistica Descrittiva III

Indice Prefazione Funzionalit `a e architettura dei DBMS La gestione della memoria permanente e del buffer Organizzazioni seriale e sequenziale

CORSO DI LABORATORIO OTTIMIZZAZIONE COMBINATORIA. Informazioni e programma del corso Introduzione al data mining e machine learning

Un applicazione di Text Mining

Comune di Finale Ligure

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Gestione Audit di Certificazione

Sistemi Informativi per le decisioni

Data warehouse Introduzione

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

Data Warehousing. Sommario. Luca Cabibbo, Riccardo Torlone, Paolo Atzeni. Processi. Processi, dati e decisioni. Processi presso una banca

Esercitazione 2 Classificazione dei Temi

Indice. Prefazione PARTE I METODOLOGIA 17

4. Matematica applicata all economia opzione

SQL Server BI Development Studio. SQL Server Business Intelligence Development Studio. Analysis Services

Basi di Dati e Sistemi Informativi. Analisi dei Dati: OLAP, Data Warehousing, Data Mining

Introduzione al Data Mining

UNITA D APPRENDIMENTO. Lo spazio e le figure

Indice Premessa Cenni storici delle misure

Data mining e rischi aziendali

viii Indice generale

1/55. Statistica descrittiva

Esplorazione grafica di dati multivariati. N. Del Buono

ATTIVITÀ IN CAMPO SISMICO RECENTI STUDI E SVILUPPI FUTURI

Analysis Service. Dutto Riccardo IPSI - tel Dutto Riccardo - SQL Server 2008.

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Informatica per la Comunicazione/ Verdicchio/ 22/07/2015/ Domande / VERSIONE 1 Matricola Cognome Nome

SQL Server Business Intelligence Development Studio. SQL Server BI Development Studio. SQL Server BI Development Studio *Analysis Services*

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse

SDE Marco Riani

SQL Server Business Intelligence Development Studio

CONCETTI E ARCHITETTURA DI UN SISTEMA DI BASI DI DATI

Competitive Intelligence Data Mining - Analisi dei dati

Transcript:

Sistemi informativi aziendali struttura e processi Data mining Copyright 2011 Pearson Italia

Uso dei Data Warehouse Esistono tre tipi di applicazioni front-end per data warehouse Analisi statica (reporting) elaborazione di situazioni aziendali da lanciare con elevata periodicità, con modalità invarianti nel tempo riflette informazione di base Analisi interattiva (OLAP) analisi interattiva basata su ipotesi supporta operazioni OLAP di base: slice-dice, drill up-down, pivot Data mining fa emergere nuova conoscenza rilevando pattern nascosti supporta modelli descrittivi e predittivi Slide 2

Limiti dei sistemi di analisi OLAP Le informazioni non sono facilmente identificabili Quantità elevata dei dati Complessità elevata delle relazioni esistenti tra i dati In assenza di strumenti adeguati i dati raccolti corrono il rischio di restare sotto-utilizzati Il sistema è ricco di dati, ma povero di informazioni Gli strumenti OLAP non sono sufficienti Operano a supporto di processi deduttivi dei decisori Sviluppano percorsi di analisi da ipotesi formulate dall utente, limitate dal suo bagaglio cognitivo Slide 3

Data mining Attività volta a riconoscere ed estrarre automaticamente informazione da basi di dati di grandi dimensioni Passi del processo di mining Pulizia Integrazione Selezione Trasformazione Data mining Valutazione dei pattern Presentazione della conoscenza Le prime fasi coincidono con quelle popolamento dei sistemi di data warehousing In ambito aziendale il data mining può essere considerato Ampliamento del sistema di data warehousing Complemento dei sistemi OLAP di analisi dei dati Slide 4

Da OLAP a OLAM (On Line Analytical Mining ) Partire dai Data warehouse garantisce l accesso a dati ben strutturati, puliti, completi Il processo di mining non può essere completamente automatico I pattern rilevati potrebbero essere troppi e non interessanti Il data mining deve essere un processo interattivo Gli utenti indicano la direzione in cui scavare Lavorare con uno strumento interattivo consente l affinamento iterativo delle ricerche Slide 5

Architettura dei sistemi di Data mining Slide 6

Architettura dei sistemi di Data Mining Data warehouse E una base di dati pronta, di elevata qualità e multidimensionale I dati da analizzare sono definiti da un interrogazione OLAP Base di conoscenza (Knowledge Base) Insieme di regole e conoscenze date per note utilizzate per guidare la ricerca e per filtrare i risultati sulla base del loro effettivo interesse Motore di data mining (Data Mining Engine) Insieme delle funzioni di analisi dei dati Sistema di valutazione delle condizioni (Pattern Evaluation) Effettua un postprocessing delle informazioni estratte dal mining (pattern) mantenendo le sole condizioni interessanti Sistema di presentazione Interfaccia utente per l attivazione delle funzioni di mining e la visualizzazione dei pattern Slide 7

Funzioni di mining Le attività di mining possono essere ripartite in due macro classi Mining descrittivo estrae informazioni che descrivono le proprietà generali dei dati Mining predittivo determina regole generali e crea modelli per predire le tendenze nel futuro Slide 8

Funzioni di mining I sistemi presenti sul mercato propongono diversi insiemi di funzioni di mining Ogni funzione permette di ricercare un certo tipo di informazione o costruire un particolare modello di predizione La stessa funzione può essere elaborata tramite algoritmi diversi Le funzioni sono riconducibili a cinque tipologie Caratterizzazione e discriminazione Analisi associativa Classificazione e predizione Analisi dei cluster Analisi degli outlier Slide 9

Caratterizzazione e discriminazione Strumenti che permettono di descrivere in modo sintetico ma preciso i dati contenuti nel database Operano tramite Generalizzazione classificazione dei dati elementari in gruppi (classi) caratterizzati da attributi comuni opera tramite tecniche OLAP e funzioni di induzione sugli attributi Funzioni di descrizione delle classi caratterizzazione: descrivono le particolarità della classe discriminazione: marcano le differenze tra classe e classe Slide 10

Caratterizzazione e discriminazione Caratterizzazione Descrive le caratteristiche di una classe Calcola misure di tendenza di dispersione Rappresentazione dei dati Tabellare, Grafica, Boxplot Discriminazione Permette di rilevare le differenze tra una classe e classi diverse paragonabili tramite il confronto diretto dei dati su tabelle o su grafici Esempio di boxplot sui dati di una classe Slide 11

Caratterizzazione e discriminazione Esempi di rappresentazioni grafiche delle caratteristiche dei dati appartenenti ad una classe Slide 12

Analisi associativa Permette di identificare condizioni che si verificano contemporaneamente con elevata frequenza Rileva pattern che si ripetono su determinati attributi e ne deriva regole di implicazione del tipo A B Esempi compra(x, divano 2 posti ) compra (X, poltrona ) fatturato (X, > 100M ) struttura(x, Spa ) compra(x, Jaguar ) Applicazioni market basket analysis profili clienti (abitudini di acquisto) ottimizzazione delle manutenzioni... Slide 13

Significatività delle associazioni Viene valutata in base a Confidenza: misura la certezza del pattern Supporto: misura la frequenza con cui il pattern è presente sulla base di dati Esempio Compra(X, divano 2 posti ) Compra (X, poltrona ) [c.85%;s.30%] L 85% di tutti coloro che comprano un divano 2 posti compra anche una poltrona Nel 30% delle vendite il cliente ha comprato sia un divano a due posti che una poltrona Slide 14

Classificazione e predizione Costruzione di modelli per Predire gli eventi futuri Stimare il valore di elementi non noti Classificazione Definizione di criteri che permettono di assegnare un soggetto ad una classe Predizione Calcolo di funzioni di tendenza continue tramite l interpolazione dei dati noti Slide 15

Classificazione e predizione Costruzione basata su esempi Il modello deriva da un sottoinsieme significativo dei dati esistenti L efficacia viene testata su un sottoinsieme diverso (disgiunto) dei dati Se il modello si rivela efficace può essere usato come predittore Applicazioni Propensione all acquisto dei clienti Qualità dei fornitori Affidabilità dei prodotti... Slide 16

Classificazione Permette di indicare l appartenenza di un elemento ad una certa classe Diversi tipi di modelli Funzioni matematiche Analisi statistiche Regole associative Alberi di decisione Reti della verità bayesiane Reti neurali Slide 17

Alberi di decisione Struttura di classificazione basata sulla valutazione di condizioni del tipo if-then-else Nodi interni Attributi del soggetto da classificare Archi in uscita Etichettati con i valori che l attributo può assumere Nodi foglia Classi La classificazione avviene seguendo un percorso guidato dai valori assunti dagli attributi dell elemento da classificare Esempio di albero di decisione Slide 18

Predizione Permette di identificare valori non noti di elementi il cui dominio è continuo Costruzione delle funzioni di tendenza tramite interpolazione sui punti noti (regressione) Diversi modelli di regressione Lineare semplice (distribuzioni bivariate) Y = q + m X Multilineare (distribuzioni multivariate) Y = q + m1 X1 + m2 X2+ m3 X3 Non-lineare (polinomiale, esponenziale, logaritmica,...) Y = q + m1x+ m2x2+ m3x3 (polinomiale di grado 3) Slide 19

Predizione Confronto tra regressione lineare e polinomiale di terzo grado sugli stessi punti Slide 20

Clustering Ripartisce gli elementi in classi anonime sulla base delle affinità rilevate tramite l osservazione dei dati Classi non definite a priori Classi proposte all utente come agglomerati spontanei di dati Dall analisi dei cluster l utente può derivare informazioni e nuovi criteri su cui costruire modelli di classificazione I cluster presentano La massima similarità tra gli elementi appartenenti ad una classe La minima similarità tra gli elementi appartenenti classi diverse Slide 21

Clustering I metodi di clustering si fondano su diverse tecniche Partizionamento l utente indica in quante classi ripartire i dati l algoritmo ripartisce gli elementi nel numero di classi indicato sulla base delle reciproche distanze Classificazione gerarchica Basata su aggregazione: costruisce le classi aggregando iterativamente gli elementi sulla base delle similitudini Basata su divisione: ripartisce iterativamente l insieme dei dati in sottoinsiemi di elementi simili Valutazione della densità i cluster sono identificati dalle zone topologicamente dense. Slide 22

Clustering Esempio di clustering con partizionamento su 7 classi Slide 23

Ricerca degli outlier Outlier: eccezione, elemento fuori range La ricerca Si basa sugli stessi principi del clustering Concentra gli sforzi sull identificazione degli elementi che si discostano maggiormente dagli altri Metodi per la ricerca degli outlier Statistici applicabili se sui dati è identificabile una distribuzione Basati sulla distanza ricercano gli elementi che massimizzano la distanza dai restanti elementi del set di analisi Basati sulla deviazione identificano gli outlier come elementi che deviano dalle caratteristiche tendenziali del gruppo Slide 24

Processo di mining dei dati L utente effettua iterativamente interrogazioni di mining sul sistema Ogni analisi di mining dei dati si basa su Insieme dei dati di analisi query multidimensionale e condizioni di filtro Tipo di informazioni da ricercare funzione di mining che verrà attivata Misure di interesse criteri di interesse dei pattern Modalità di presentazione dei pattern Slide 25

Misure di interesse dei pattern Il mining può restituire insiemi molto numerosi di pattern E necessario un passo di post-processing che permetta di identificare i pattern interessanti Caratteristiche che rendono un pattern interessante Novità riduzione tramite l omissione di informazioni ridondanti Semplicità riduzione tramite valori di soglia (ad esempio sulla lunghezza delle regole associative, sul numero di livelli negli alberi di decisione) Certezza riduzione tramite valori di soglia (ad esempio su confidenza e supporto nell analisi associativa) Utilità riduzione tramite valori di soglia (ad esempio, sul numero di elementi appartenenti ad un cluster) Slide 26