Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi
Obiettivi Nelle lezioni precedenti abbiamo modellato i processi e i requisiti funzionali L obiettivo di oggi é: Cosa vuol dire la modellazione multidimensionale Acquisire gli strumenti (i.e. imparare un linguaggio) per disegnare i requisiti informativi direzionali. 2
Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi
Data Mart e Data Warehouse come livelli di memorizzazione delle informazioni Motori di calcolo Motori di presentazione Altri motori DATA MART DATA WAREHOUSE CARICAMENTO TRASFORMAZIONE DATA ENTRY ESTRAZIONE BASI DATI TRANSAZIONALI I dati sono memorizzati in Data Warehouse e Data Mart Warehouse : base dati tematica estesa, che può arrivare a coprire tutte le esigenze di una impresa Mart : base dati più ridotta, in genere un sottoinsieme della Warehouse Warehouse e Mart adottano distinti schemi di memorizzazione Caratteristica è la MEMORIZZAZIONE MULTIDIMENSIONALE 4
Data Fatto IL MODELLO MULTIDIMENSIONALE FATTI EVENTI - DIMENSIONI Vendite Evento Negozio Prodotto In termini intuitivi un modello multidimensionale è una matrice di tabelle Gli oggetti descritti sono fatti (Es: vendite, spedizioni, ) le cui occorrenze sono legate ad eventi (vettore tempo) La individuazione di un evento si ottiene attraverso uno spazio n-dimensionale i cui assi sono detti dimensioni di analisi Un evento è identificato univocamente dalle dimensioni scelte Ogni fatto è descritto attraverso da misure I fatti sono essere strutturati in cubi n- dimensionali Possibilità di interrogazioni complesse. Es: Che incassi si sono registrati l anno scorso per ciascuna regione e ciascuna categoria di prodotto? Dimensione Quantità = 20 Incasso = 100 5
Il Modello Multidimensionale Gerarchie di Aggregazione Dimensione Prodotto Svelto. Ajax Dove Palmolive Tipo Detersivo Sapone Latticini Farinacei Gerarchia Categoria Pulizia della casa Alimentari Tutti i prodotti Per eseguire l analisi multidimensionale le dimensioni sono strutturate in gerarchie di livelli di aggregazione (o di roll-up) I livelli che compongono una gerarchia sono chiamati attributi dimensionali L analisi multidimensionale si esegue navigando attraverso i livelli di aggregazione delle dimensioni del fatto Bevande Attrezzi Materiale di consumo Ferramenta 6
Il Modello Multidimensionale Struttura di un Cubo Vendita (Data, Prodotto, Negozio, Quantità, Incasso) Data Prodotto Negozio Importo Quantità 13-mar 423 24 101,52 8 Un cubo è formato a partire da un insieme di n-uple composte da: Dimensioni Misure Le dimensioni equivalgono a chiavi 13-mar 434 24 104,16 8 13-mar 434 22 95,48 6 per identificare gli eventi 13-mar 445 22 97,90 8 (funzionano come un indice analitico) 14-mar 423 24 101,52 8 Le misure (almeno 1) descrivono l evento 7
Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi
Operazioni Analitiche On-Line Analytical Processing (OLAP) Misura Fatto Si possono costruire sessioni di analisi in cui ciascun passo è conseguenza dei risultati dei passi precedenti I dati sono presentati in forma tabellare che evidenzia le dimensioni di analisi Queste strutture vengono chiamate Tabelle Pivot Supermercato.xls Dimensione 9
Operazioni Analitiche OLAP Operazioni Elementari 1 Problema: Sparsità dei dati/ Eccessivo livello di dettaglio Soluzione: Operazione di roll-up Aggregazione delle informazioni tramite l eliminazione di un livello nella gerarchia oppure di una intera dimensione di analisi Supermercato.xls 10
Operazioni Analitiche OLAP Operazioni Elementari 2 Operazione di drill-down (Trivellare) Duale all operazione di roll-up Esplosione delle informazioni tramite l introduzione di un nuovo livello nella gerarchia oppure di una intera dimensione di analisi Supermercato.xls 11
Operazioni Analitiche OLAP Operazioni Elementari 3 Operazione di Slicing (Affettare) Riduce le dimensioni del cubo fissando un valore per una dimensione Supermercato.xls 12
Operazioni Analitiche OLAP Operazioni Elementari 4 Operazione di Dicing (Fare a cubetti) o di Selezione-Filtraggio Riduce l insieme dei dati tramite la formulazione di un criterio di selezione Supermercato.xls 13
Operazioni Analitiche OLAP Operazioni Elementari 5 Operazione di Pivoting Cambia la modalità di presentazione delle informazioni attraverso lo scambio fra due dimensioni si analisi Il pivoting ruota il cubo riorganizzandolo in una prospettiva diversa Porta in primo piano una differente combinazione di dimensioni Supermercato.xls 14
Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi
La Modellazione Dimensionale dei Fatti (DFM) La Modellazione Dimensionale dei Fatti è utilizzata per la progettazione di cruscotti è complementare e non sostituisce Class Diagrams Entity Relationship Per approfondimenti Matteo Golfarelli - Stefano Rizzi, Data Warehouse, McGrawHill, 2002-2006 16
Il Dimensional Fact Model (DFM) Introduzione I modelli Entity/Relationship non possono essere navigati efficacemente dal software dei DBMS [per ricercare informazioni]. I modelli Entity/Relationship non possono essere adottati come fondamento per i data warehouse (Kimball 1996) I modelli ER modellano la struttura del dominio applicativo e le associazioni fra le informazioni tipicamente granulari Gli schemi ER non modellano la multidimensionalità né la gerarchia dei livelli di aggregazione e quindi non sono orientati alla analisi 17
Il Dimensional Fact Model (DFM) Concetti Base Il Dimensional Fact Model (DFM) è un modello concettuale grafico concepito per supportare la progettazione di data mart La rappresentazione generata dal DFM è detta Dimensional Scheme (DS) e consiste di un insieme di Fact Scheme (FS) Il DFM è indipendente dal modello logico target (multidimensionale o relazionale) cioè anche dalla implementazione 18
Il Dimensional Fact Model (DFM) Concetti Base I componenti di base dei FS sono fatti, misure, dimensioni e gerarchie: Un fatto è un concetto di interesse per l impresa ed è descritto da un insieme di misure. Una misura è una proprietà numerica di un fatto e descrive un aspetto quantitativo di interesse per l analisi (valori continui) Una dimensione determina la granularità di rappresentazione dei fatti. (valori discreti) Un fatto esprime una associazione molti-amolti tra le dimensioni. Questo legame è espresso (a livello estensionale) da un Evento Primario ovvero da un occorrenza del fatto 19
Il Dimensional Fact Model (DFM) Concetti Base Una gerarchia determina come le istanze di fatto possono essere aggregate e selezionate in modo significativo per il processo decisionale. Una gerarchia è un albero direzionato in cui I nodi sono attributi dimensionali Gli archi rappresentano le associazioni molti-a-uno tra coppie di attributi dimensionali Una gerarchia racchiude una dimensione, posta alla radice dell albero e tutti gli attributi dimensionali che la descrivono 20
Identificazione Descrizione Il Dimensional Fact Model (DFM) Modello di un indicatore Scheda Indicatore Name Contenuto Slot Riporta il modo in cui l indicatore è stato ottenuto Riporta una descrizione testuale dello scopo dell indicatore e spiega le variabili utilizzate Nome Importanza Descrizione dettagliate Metrica Riporta la formula di calcolo attraverso cui è ottenuto l indicatore Formula di calcolo Variabili elementari Riporta le variabili elementari usate dall indicatore Nome della variabile elementare Commenti Unità di misura Valori Dominio Riporta le unità di misura con cui viene rappresentato un indicatore Riporta per ogni valore il tipo che usa l indicatore (valori effettivi, obiettivi o di riferimento) È lo spazio logico e temporale cui si riferiscono i valori di un dato indicatore. Il dominio è definito specificandone le dimensioni e le eventuali gerarchie Nome dell unità di misura Tipo di valore Valore Dimensione Descrizione Aggregazione Specifica le formule di aggregazione sulle dimensioni Formule Indica quali sono i sistemi IT o altre fonti dove sono presenti le Fonte informazioni elementari Nome delle fonti 21
Il Dimensional Fact Model (DFM) Key Performance Indicators (KPI) e Fatti Una volta definiti i Key Performance Indicators di interesse possiamo monitorarli attraverso un sistema di warehousing La struttura dei KPI permette un mapping intuitivo con gli schemi di fatto 22
Il Dimensional Fact Model (DFM) Esempio di generazione di un fatto a partire dai KPI Produttività Personale Impianto Scalo sulla Composizione dei Treno Merce Name Contenuto Identificazione Descrizione Metrica Variabili elementari Unità di misura Valori Dominio Aggregazione Fonte 0048-MAN-COST-PROD-02 Calcolare il Tasso di Produttività degli addetti in Ore lavorate Count ( Treni Composti ) / Ore di MO diretta 1. Numero dei Treni composti 2. Ore di MO diretta [Treno/Ora] Valore effettivo Valore soglia: da definire Valore obiettivo: da definire Data Cliente Finale Scalo Non applicabile Sistema Informativo dei Rotabili SIR, Sistema Gestione del Personale 23
Il Dimensional Fact Model (DFM) Esempio di generazione di un fatto a partire dai KPI 24
Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi
Casi VOLAFACILE + GRANDI ALBERGHI Giulio Sangiuliani, amministratore delegato di VOLAFACILE chiese un report che sulle prenotazioni e sui voli a quantità (numero di prenotazioni, numero passeggeri) e valore (ammontare in euro), rispetto alla tipologia del cliente, alla destinazione dei voli, al canal di vendita dei biglietti (web, agenzia, call center). Inoltre Sangiuliani chiese un secondo report per i clienti registrati, che indicasse il tasso di loyalty, calcolato con la formula Valore dei biglietti venduti / Acquisti medi statistici di biglietti per la fascia di cliente. A questo scopo ad ogni cliente registrato era assegnato un codice statistico, che designava la classe di reddito del cliente stesso. Alessandro Orta, parlando con il consulente che lo intervistava, osservò: Il processo operativo è soddisfacente. Sono contento del personale e degli alberghi. Purtroppo so poco dell andamento operativo. Non so quante prenotazioni rifiutiamo, qual è la distribuzione delle prenotazioni; non so nemmeno se diamo ai clienti le camere che hanno chiesto. Per calcolare settimanalmente il tasso di occupazione delle camere, occorre estrarre i dati dal CRM e trasportarli su Excel vorrei un cruscotto gestionale che misuri efficienza ed efficacia del processo di prenotazione / soggiorno. 26
Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi
MODELLAZIONE LOGICA RELATIONAL OLAP SCHEMA A STELLA Dimension Table PK DATA Fact Table ChiaveD Data Mese Trimestre Anno Giorno Settimana Vacanza PK PK,FK1 PK,FK2 PK,FK3 Star Schema PRODOTTO ChiaveP Prodotto Tipo Categoria Reparto Gruppo Marketing Marca Città Marca VENDITE ChiaveN ChiaveD ChiaveP Quantità venduta Incasso Prezzo unitario Numero clienti PK NEGOZIO ChiaveN Negozio Città Negozio Regione Negozio Stato negozio Responsabile Distretto Il modello relazionale è lo standard de facto del settore dei database pertanto è conosciuto da tutti i professionisti del settore Risolve in maniera efficiente il problema della sparsità La modellazione multidimensionale è basata sugli Star Schema (Schemi a stella) costituiti da Un insieme di relazioni dette Dimension Table corrispondenti ad una dimensione e che contiene gli attributi dimensionali Una relazione detta Fact Table che contiene le chiavi di tutte le dimension table ed un attributo per ogni misura 28
MODELLAZIONE LOGICA RELATIONAL OLAP SCHEMA A FIOCCO DI NEVE Lo schema a stella non è in terza forma normale perché esistono dipendenze funzionali transitive nelle Dimension table Risolvendo alcune dipendenze funzionali si ottiene lo SnowFlake Schema (Schema a fiocco di neve) Per ogni DT dello star schema si ricavano n DT caratterizzate da Una chiave primaria (tipicamente surrogata) Un sottoinsieme di attributi della DT di partenza che dipendono funzionalmente dalla chiave primaria Zero o più chiavi esterne alle altre DT ricavate al fine di mantenere l integrità del contenuto informativo Se la chiave primaria di una DT è importata direttamente nella fact table essa si dice Primaria altrimenti si dice Secondaria 29
www.dilbert.com 30
Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi