SISTEMI INFORMATIVI AZIENDALI



Documenti analoghi
Ricerca di outlier. Ricerca di Anomalie/Outlier

SISTEMI INFORMATIVI AZIENDALI

Data mining e rischi aziendali

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

7.2 Indagine di Customer Satisfaction

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

VALORE DELLE MERCI SEQUESTRATE

SOLUZIONE Web.Orders online

Corso di. Dott.ssa Donatella Cocca

Pro e contro delle RNA

Database. Si ringrazia Marco Bertini per le slides

Analisi dei requisiti e casi d uso

Analisi della performance temporale della rete

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

LE CARTE DI CONTROLLO (4)

Uno standard per il processo KDD

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

7.2 Indagine di Customer Satisfaction

Automazione Industriale (scheduling+mms) scheduling+mms.

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

Sistemi Informativi e Sistemi ERP

Corso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A Class Discovery E.

Appendice III. Competenza e definizione della competenza

11. Evoluzione del Software

Sistemi di misurazione e valutazione delle performance

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

LogiTrack OTG. LogiTrack Gestione logistica controllo ordine spedizioni. OTG Informatica srl

Statistica. Le rappresentazioni grafiche

GESTIONE CONTRATTI. Contratti clienti e contratti fornitori

ANALISI DEI QUESTIONARI PER LA RILEVAZIONE DELLE OPINIONI DEGLI STUDENTI SUI SINGOLI INSEGNAMENTI

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Cap.1 - L impresa come sistema

Ciclo di vita dimensionale

DFD DISPENSA DEL CORSO DI SISTEMI INFORMATIVI UNIVERSITÀ DEGLI STUDI DI VERONA FACOLTÀ DI MM.FF.NN LAUREA SPECIALISTICA IN INFORMATICA

03. Il Modello Gestionale per Processi

Indice. pagina 2 di 10

Soluzione di equazioni quadratiche

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Data Warehousing (DW)

Olga Scotti. Basi di Informatica. Excel

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Metodologia di monitoraggio Impianti fotovoltaici

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

MODULO 5 Appunti ACCESS - Basi di dati

MODELLO RELAZIONALE. Introduzione

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

B+Trees. Introduzione

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

VERIFICA DELLE IPOTESI

Sistemi di supporto alle decisioni

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Dispensa di database Access

Dominio applicativo. Analisi e ricognizione delle fonti dati

Introduzione all analisi dei segnali digitali.

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Manuale della qualità. Procedure. Istruzioni operative

Fasi di creazione di un programma

Strumenti di indagine per la valutazione psicologica

Metodi statistici per le ricerche di mercato

Excel avanzato. I nomi. Gli indirizzi e le formule possono essere sostituiti da nomi. Si creano tramite Inserisci Nome Definisci

Lezione 4. Controllo di gestione. Il controllo direzionale

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

Piano di gestione della qualità

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

Uso di base delle funzioni in Microsoft Excel

SCUOLA PRIMARIA Anno Scolastico 2014/2015 CURRICOLO DI TECNOLOGIA OBIETTIVI DI APPRENDIMENTO AL TERMINE DELLA CLASSE TERZA DELLA SCUOLA PRIMARIA

ISTITUTO COMPRENSIVO MONTEGROTTO TERME SCUOLA PRIMARIA DISCIPLINA: MATEMATICA - CLASSE PRIMA OBIETTIVI DI APPRENDIMENTO

S-TRAINER v.1.00 Esempio d uso

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

12. Evoluzione del Software

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

Gestione del workflow

Concetti di base di ingegneria del software

OSSERVAZIONI TEORICHE Lezione n. 4

Analisi e diagramma di Pareto

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

della manutenzione, includa i requisiti relativi ai sottosistemi strutturali all interno del loro contesto operativo.

GHPPEditor è un software realizzato per produrre in modo rapido e guidato un part program per controlli numerici Heidenhain.

Tecniche di riconoscimento statistico

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

Gestione Turni. Introduzione

Project Cycle Management

MANUALE DELLA QUALITÀ Pag. 1 di 6


Transcript:

SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1

Data Mining. Introduzione La crescente popolarità dei sistemi di data mining all interno dei sistemi informativi aziendali è giustificata dalla grande disponibilità di enormi quantità di dati generati dai vari processi aziendali informatizzati. Questi dati contengono sicuramente informazioni potenzialmente utili al processo decisionali ma spesso tali informazioni non sono facilmente identificabili (es. complessità delle relazioni). Per evitare che una decisione venga presa solo sulla base dell esperienza o dell intuito dell imprenditore si utilizzano strumenti di data mining al fine di elevare il grado di obiettività e di precisione dell analisi inglobando magari anche aspetti che potrebbero addirittura non valutati 2

Cosa sono i sistemi Data Mining. Il data mining è l attività volta a riconoscere automaticamente ed estrarre informazione da base di dati digrandi dimensioni. Il data mining è spesso definito anche come il processo di scoperta della conoscenza da basi di dati (Knowledge Discovery in Databases, KDD). Il processo di scoperta della conoscenza si articola nei seguenti passaggi: Pulizia dei dati, significa eliminare le inconsistenze e correggere gli eventuali errori Integrazione dei dati, integrare fonti diverse in un unico modello 3

Selezione dei dati, significa selezionare solo i dati che servono all analisi Trasformazione dei dati, significa riorganizzare o aggregare i dati in base al tipo di elaborazione Data mining, il processo vero e proprio di analisi Valutazione dei pattern, significa che spesso le tecniche di data mining portano alla luce informazioni che possono essere classificate come non rilevanti per l indagine Presentazione della conoscenza, le informazioni devono essere presentate all utente tramite opportune rappresentazioni grafiche (a colpo d occhio l utente deve comprendere la conoscenza che scaturisce dalle informazioni) 4

Architetture dei sistemi di data mining Data Warehouse Motore di data mining Base di conoscenza Valutazione delle condizioni Presentazione 5

6 Componenti dell archittetura L archichettura della slide precedente, si fonda sui seguenti componenti: DataWarehouse, è la base di dati di analisi Base di conoscenza (Knowledge Base), contiene l insieme di regole e conoscenze date per note che verranno utilizzate per guidare la ricerca e per filtrare i risultati valutando l effettivo interesse dei pattern rilevati Motore di data mining (Data Mining Engine), è composto dall intero insieme di funzioni di analisi dei dati provenienti da discipline diverse come la statistica, l intelligenza artificiale, reti neurali, l analisi dei segnali Sistema di valutazione delle condizioni (Pattern Evaluation), focalizza la ricerca sui pattern (condizioni) interessanti Sistema dipresentazione, è l interfaccia tramite la quale l utente può specificare le tecniche di data mining, formulare nuove ipotesi o semplicemente visualizzare i risultati ottenuti

7 Data Mining e Data Warehouse Un sistema di data mining può non essere integrato nel sistema di data warehousing, allora il sistema di data mining deve mantenere una copia propria dei dati informazionali e periodicamente aggiornarla. Oppure integrarsi perfettamente, il sistema data mining viene visto come una componente funzionale del sistema informazionale, il vantaggio sta in una facilità di implementazione delle funzioni di data mining e in prestazioni elevate. Altre 2 caratteristiche sono: Scalabilità, capacità di elaborare le funzioni di analisi con tempi di risposta lineari rispetto alla numerosità dei dati. Requisito non sempre soddisfatto in quanto le informazioni superano una soglia critica il sistema rallenta in modo evidente (soluzione: calcolo parallelo) Interpretabilità, facilità con cui l utente interagisce con l interfaccia del sistema per l attivazione delle funzioni di analisi e rappresentazione dei dati

8 Funzioni di mining 1/3 In generale le funzioni di mining possono essere ripartite in 2 macro classi: Il mining descrittivo, descrive le proprietà generali dei dati. Il mining predittivo, che analizzando i dati presenti, determina delle regole e crea modelli per predire il futuro. Tipologie di analisi: Descrizione di classi e concetti Concetto: è una astrazione dei fatti (clienti e vendite) Classe: raggruppamento di elementi aventi stesse caratteristiche Analisi associativa, scopre le regole associative identificando nella massa dei dati i valori di attributi che si presentano insieme con elevata frequenza (importanti nei piani di marketing, campagne prodotti)

Funzioni di mining 2/3 Tecniche di classificazione e predizione, utilizzate per costruire modelli a partire dall analisi dei dati di un campione (es. analisi rischio-clienti). Tali modelli permettono di ricondurre ad una classe nota qualsiasi elemento in base alle caratteristiche di suoi attributi. Analisi cluster, i dati vengono raggruppati in classi (cluster) sulla base della similitudine; elementi che appartengono alla stessa classe hanno caratteristiche comuni che li rendono simili. Le regole di similitudine non sono date a priori ma sono determinate dal sistema sulla base dell osservazione dei valori assunti dai dati 9

Funzioni di mining 2/3 Analisi degli outlier, gli outlier sono gli elementi che si discostano dal modello generale dei dati, quelli che presentano qualche anomalia rispetto al profilo generale, esempio: La ricerca di frodi (operazioni o importi sospetti) La ricerca di intrusioni non autorizzate nei sistemi elettronici Valutazione efficienza impianti (individuazione macchine con guasti superiori alla media) Analisi evolutiva dei dati, descrive il comportamento nel tempo degli elementi sottoposti ad analisi, sottolineandone regolarità (comportamenti stagionali o ciclici) e tendenze. Analisi utilizzata per predire comportamenti futuri e quindi guidare le decisioni sulle politiche aziendali. 10

Processo di mining dei dati Ogni analisi di mining dei dati richiede, da parte dell utente, l indicazione dei parametri elencati di seguito: Insieme dei dati di analisi Tipo di informazioni da ricercare Misure di interesse Base di conoscenza Presentazione dei pattern 11

Insieme dei dati di analisi L insieme dei dati di analisi definisce la porzione dei dati da fornire in ingresso alle funzioni di data mining. Esempio, un analisi delle abitudini di acquisto dei propri clienti ha come base i fatti di vendita e non avrebbe alcun senso lanciare l analisi comprendendo fatti di produzione o fatti legati alla logistica. Circoscrivere l insieme dei dati di partenza migliora le prestazioni. È possibile che questa attività sia fatta da un utente che non ha una idea precisa ne consegue che potrebbe vanificare l attività di mining sui dati 12

Tipo di informazioni da ricercare L utente può/deve indicare quali informazioni ricercare scegliendo tra le funzioni disponibili quella che si presta meglio al suo obiettivo di conoscenza (descrittivo, di classificazione, predittivo o di analisi delle eccezioni). 13

Misure di interesse dei pattern Le analisi di mining possono produrre un insieme assai numeroso di elementi in uscita. È necessario un passaggio di post-processing per focalizzare l attenzione, un pattern interessante si caratterizza per: Novità, si intende informazione nuova, non ancora conosciuta (non duplicata) Semplicità, facilmente comprensibile da chi conduce l analisi Certezza, la regola definita dal pattern deve essere valida anche su dati nuovi o diversi Utilità, la regola identificata deve avere una qualche utilità potenziale per il decisore 14

Base di conoscenza Alcuni parametri che potrebbero essere utili per discriminare i pattern significativi dipendono dalla struttura dei dati, dalle regole aziendali e dall esperienza di chi conduce l analisi. Tali parametri devono essere descritti all interno di una base di dati dedicata, la base di conoscenza, sotto forma di regole, di relazioni tra elementi. Per esempio, la base di conoscenza potrebbe descrivere le varie gerarchie (strutturali, di raggruppamento) all interno del sistema. 15

Visualizzazione dei pattern La visualizzazione dei risultati ottenuti non è un elemento da sottovalutare, si può considerare come uno dei fattori di successo di qualsiasi sistema di analisi dei dati. Nei sistemi di data mining alcuni tipi di visualizzazione sono particolarmente utili. Esempio, gli alberi di decisione si utilizzano prevalentemente nelle analisi di classificazione, i diagrammi di dispersione nelle analisi di clustering. 16

Statistiche elementari e analisi relative Un primo insieme di funzioni di mining dei dati è costituito dagli strumenti che permettono di descrivere in modo sintetico ma preciso le informazioni contenuti nel database. Gli strumenti descrittivi operano tramite: Generalizzazione, attività che permette di ripartire i dati elementari in gruppi caratterizzati da attributi comuni Caratterizzazione, descrive le particolarità Discriminazione, che marca le differenze tra gruppo e gruppo 17

18 Caratterizzazione Si utilizzano misure di tendenza al fine di capire come i dati si dispongono attorno ad un determinato valore: Media,media pesata, centro numerico diuninsieme divalori Mediana, valore/modalità che si trova nel mezzo della distribuzione Moda, valore che ha la massima frequenza Oppure misure di dispersione: Varianza, come i dati si distribuiscono attorno al valore medio Confidenza, identifica l intervallo di valori intorno alla media che si distribuiscono come una Gaussiana all interno di una probabilità data (intervallo di confidenza pari al 98%) Percentili, rappresentano, dato un insieme ordinato di misure, il limite al di sotto del quale ricade una certa percentuale dei dati (quartili)

Discriminazione Nella discriminazione le caratteristiche di una classe vengono messe a confronto con quelle di classi diverse ma ovviamente paragonabili. 19 Rappresentazione grafica I principali sono: Istogramma difrequenza Plot quantile Scatter plot Uno degli strumenti grafici più efficace per vedere a colpo d occhio se è presente una relazione di qualsiasi genere tra 2 misure descrittive della stessa classe. La coppia di valori è vista come una coppia di coordinate. Si evidenziano blocchi di aggregazione o tendenze o punti isolati

20 Analisi associative I meccanismi di associazione permettono di identificare le condizioni che tendenzialmente si verificano contemporaneamente. Nati principalmente per l analisi delle vendite, tracciano le propensioni d acquisto legate alle caratteristiche dei clienti. Le informazioni che scaturiscono permettono di pianificare campagne promozionali efficaci, strutturare i listini o addirittura identificare clienti potenzialmente a rischio di insoluti. In sostanza si cerca di individuare dei pattern che si ripetono in determinate condizioni e che consentono di derivare delle regole di implicazione del tipo A => B (se si verifica A allora è probabile si verifichi anche B). Le condizioni vengono rappresentate nella forma: Attributo(soggetto, valore) Attributo1(soggetto, valore1) AND Attributo2(soggetto, valore2)

Significatività delle associazioni 1/2 La significatività di un associazione viene principalmente valutata in base a 2 misure particolari: confidenza e supporto. Confidenza, è una misura della certezza del pattern. Definita come la probabilità condizionata P(A B), cioè la probabilità che un elemento che contenga A contenga anche B. Calcolato come P(A B) = P(A B)/P(B) Supporto, è una misura della frequenza con cui il pattern è stato identificato sulla base di dati. È calcolato come (elementi che soddisfano la regola)/(totale elementi dell insieme dati di analisi) 21

Significatività delle associazioni 2/2 Esempio, la regola: Compra(X, divano a 2 posti ) => Compra(X, poltrona ) Ha una misura di confidenza dell 85% e una di supporto del 30%. Come si legge? Significa che tutti coloro che hanno comprato un divano a 2 posti erano all 85% intenzionati a comprare anche una poltrona ma solo nel 30% delle vendite il cliente ha comprato sia un divano a 2 posti che una poltrona Le associazioni forti sono quelle che il supporto è significativo (oltre una certa soglia) e la confidenza è elevata. 22

Classificazione Le tecniche di classificazione sono anche definite tecniche di apprendimento assistito: i parametri per la creazione del modello sono infatti forniti dall utente che specifica le classi, i dati per il modello e a che classe appartiene il dato. Nella creazione del modello l utente divide i dati in 2 sottoinsiemi, il training set (per l apprendimento) e il testing set (per la validazione del modello). Le tecniche usate sono molteplici: Alberi di decisione Reti neurali e algoritmi genetici Reti bayesiane 23

Alberi di decisione 1/3 Titolo di studio Zona Età Acquista divano Laurea Nord < 40 Sì Laurea Sud 41-50 No Laurea Nord >50 Sì Diploma Sud < 40 Sì Diploma Nord 41-50 Sì Laurea Sud 41-50 No Diploma Nord < 40 Sì Laurea Sud >50 No Laurea Nord >50 Sì Diploma Nord >50 No 24

Alberi di decisione 2/3 Data la tabella slide precedente, costruiamo l albero delle decisioni. Prima di iniziare definiamo la struttura: I nodi interni sono attributi del soggetto da classificare Gli archi in uscita da un nodo sono etichettati con i valori che l attributo può assumere I nodi foglia sono le classi La tecnica di costruzione usa raffinamenti successivi: sceglie un attributo come radice, divide gli elementi in sottoinsiemi sulla base dei valori assunti dall attributo e crea gli archi, uno per ogni possibile valore dell attributo, che portano a nuovi nodi. Se tutti gli elementi di un sottoinsieme appartengono alla stessa classe, il nodo corrente è una foglia, altrimenti sceglie un nuovo attributo per etichettare il nodo e riprende la divisione. 25

Alberi di decisione 3/3 L albero avrà la seguente forma: Sì <40 Sì Età 41-50 Titolo di studio No >50 No Zona diploma laurea sud nord diploma Sì Titolo di studio laurea No 26

Caratteristiche dei classificatori Accuratezza della previsione Velocità, tempo impiegato sia per costruire il modello sia che per classificare gli elementi Scalabilità Robustezza, capacità del modello di classificare correttamente elementi anche in presenza di dati errati o mancanti Interpretabilità, modello di facile comprensione (vedi l albero delle decisioni) a differenza delle reti neurali o quelle bayesiane 27