Il Dimensional Fact Model

Documenti analoghi
Modellazione concettuale

Progettazione del Data Warehouse

Progettazione di Basi di Dati

Informatica Industriale Modello funzionale: Informazione Modello Entità-Relazione

Sistemi Informativi La Modellazione Dimensionale dei Fatti. Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi

Il modello multidimensionale. Per le slides si ringrazia il Prof. Stefano Rizzi ( e il Dott.

Catena del valore (studio di caso)

Elena Baralis, Claudio Demartini

Il ciclo di vita del Data Warehouse. Prof. Stefano Rizzi

13. Datawarehouse (parte 2) Analisi e riconciliazione delle fonti dati progettista amministratori dei database modello a tre livelli

Programmazione con Java

I modelli logici dei dati

Progettazione Logica. Sviluppo di un Database/DataWarehouse

CAPITOLO V. DATABASE: Il modello relazionale

Gerarchia di Generalizzazione. Esempio. Rappresentazione grafica. Cap. 4 - Modello E/R avanzato: Gerarchie di Generalizzazione/ specializzazione

Progettazione logica relazionale (1/2) Progettazione logica. Progettazione logica relazionale (2/2) Introduzione. Progettazione logica

Data warehouse Progettazione

Si considerino le seguenti specifiche relative alla realizzazione di un sistema informativo per un concessionario di automobili.

02/mag/2012. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale

Database. Appunti di Amaranto Oronzo e Giancane Diego Lezione dell Ing. Lucia Vaira 24/04/2014

Strutture dati e loro organizzazione. Gabriella Trucco

Modulo 1 Concetti di base della Tecnologia dell Informazione

Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw -Hill, Progettazione logica. Dati di ingresso e uscita

Data warehousing con SQL Server

Indicare quale o quali delle seguenti affermazioni sono vere?

I Diagrammi di Flusso OO

Le basi di dati. Definizione 1. Lezione 2. Bisogna garantire. Definizione 2 DBMS. Differenza

Matematica e-learning - Corso Zero di Matematica. Gli Insiemi. Prof. Erasmo Modica A.A.

ELEMENTI di TEORIA degli INSIEMI

Caratteristiche di un linguaggio ad alto livello

I data warehouse e la loro progettazione

Database. Cos è un database? Intro Tipi di entità Mapping ER/EER à Relazionale

Basi di dati. Progettazione di basi di dati: Metodologie e modelli

IL MODELLO ENTITY RELATIONSHIP. il modello ER 1

Modello Entità-Relazione (E-R)

GESTIONE MAGAZZINO 1

Progettazione logica

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

CONCETTI E ARCHITETTURA DI UN SISTEMA DI BASI DI DATI

Traduzione dello schema E-R in modello logico relazionale

Macchine sequenziali. Automa a Stati Finiti (ASF)

Parte III Brand management

Data warehousing con SQL Server

I database. Introduzione alla teoria delle basi di dati

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

INTEGRAZIONE DI SCHEMI E/R

BASI DI DATI. Titolo Prof. Cognome Nome Indirizzo Numero Telefono

Pianificazione del data warehouse

MICROSOFT ACCESS IL MODELLO E/R

I servizi del SITR-IDT

La statistica descrittiva per le variabili quantitative

INTERPRETAZIONE DI GRAFICI E TABELLE. Liceo classico «G. Meli» 2014/15 Corso preparazione test universitari Prof. Silvio Vitellaro

Elena Baralis 2007 Politecnico di Torino 1

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Progettaz. e sviluppo Data Base

GLI INSIEMI. Il termine INSIEME è una parola primitiva, cioè un termine che ha bisogno di un esempio per essere spiegato e quindi compreso.

GESTIONE ABBONAMENTI RIVISTE

ACCESS. Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati.

Lezione 12. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 12. A. Iodice.

Lezione n. 1 _Complementi di matematica

M.P. Cavaliere ELEMENTI DI MATEMATICA E LOGICA MATEMATICA DISCRETA INSIEMI

CORSO DI AZZERAMENTO DI MATEMATICA

Statistica. Esercitazione 10. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice. V.C.

BASI DATI INFORMATICA

Data warehousing con SQL Server

Laboratorio di Basi di Dati prova totale 20 febbraio 2013

Prof. Matteo De Angelis, Ph.D. Università LUISS Guido Carli Roma. Verona, 12 ottobre 2016

Metodi quantitativi per i mercati finanziari

GESTIONE VOTI SCOLASTICI

LA PROGETTAZIONE CONCETTUALE

INDICATORI DI TENDENZA CENTRALE

DISPENSE SU TEORIA DEGLI INSIEMI E NUMERI

Fondamenti e didattica di Matematica Finanziaria

PROGETTAZIONE LOGICA. Prof. Ing. Alfredo GARRO 1/6. Artista. Cantante. DataDiNascita. Codice. Nazionalità

Gestione di ordini (studio di caso)

ESAME 16/02/2016 (A) Prof. C. DE MAIO

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Algoritmo basato su cancellazione di cicli

Esercitazioni di Reti Logiche. Lezione 5

Ingegneria del Software

INDICATORI DI TENDENZA CENTRALE

Transcript:

Il Dimensional Fact Model Per le slides si ringrazia il Prof. Stefano Rizzi (http://www-db.deis.unibo.it/~srizzi/) e il Dott. Angelo Sironi Quale formalismo? Mentre è universalmente riconosciuto che un DW si appoggia sul modello multidimensionale, non c è accordo sulla metodologia di progetto concettuale. Il modello Entity/Relationship è molto diffuso nelle imprese come formalismo per la documentazione dei sistemi informativi relazionali, ma non può essere usato per modellare il DW. 2 1

Il Dimensional Fact Model Il DFM è un modello concettuale grafico per data mart, pensato per: supportare efficacemente il progetto concettuale; creare un ambiente su cui formulare in modo intuitivo le interrogazioni dell utente; permettere il dialogo tra progettista e utente finale per raffinare le specifiche dei requisiti; creare una piattaforma stabile da cui partire per il progetto logico (indipendentemente dal modello logico target); restituire una documentazione a posteriori espressiva e non ambigua. La rappresentazione concettuale generata dal DFM consiste in un insieme di schemi di fatto. Gli elementi di base modellati dagli schemi di fatto sono i fatti, le misure, le dimensioni e le gerarchie 3 Il DFM: costrutti di base Un fatto è un concetto di interesse per il processo decisionale; tipicamente modella un insieme di eventi che accadono nell impresa (ad esempio: vendite, spedizioni, acquisti,...). È essenziale che un fatto abbia aspetti dinamici, ovvero evolva nel tempo Una misura è una proprietà numerica di un fatto e ne descrive un aspetto quantitativo di interesse per l analisi (ad esempio, ogni vendita è misurata dal suo incasso) Una dimensione è una proprietà con dominio finito di un fatto e ne descrive una coordinata di analisi (dimensioni tipiche per il fatto vendite sono fatto prodotto, negozio, data) Un fatto esprime una associazione molti-a-molti tra le dimensioni dimensione misura 4 2

Il DFM: costrutti di base Con il termine generale attributi dimensionali si intendono le dimensioni e gli eventuali altri attributi, sempre a valori discreti, che le descrivono (per esempio, un prodotto è descritto dal suo tipo, dalla categoria cui appartiene, dalla sua, dal reparto in cui è venduto) Una gerarchia è un albero direzionato i cui nodi sono attributi dimensionali e i cui archi modellano associazioni molti-a-uno tra coppie di attributi dimensionali. Essa racchiude una dimensione, posta alla radice dell albero, e tutti gli attributi dimensionali che la descrivono attributo dimensionale gerarchia 5 Il DFM: corrispondenza con l E/R 6 3

4 7 REPARTO CATEGORIA TIPO PRODOTTO vendita qtà venduta incasso prezzo unitario num. clienti GRUPPO MARKETING reparto categoria regione prodotto gruppo marketing (0,n) MARCA CITTA MARCA DATA MESE TRIMESTRE ANNO SETTIMANA GIORNO VACANZA vacanza anno trimestre mese data giorno settimana NEGOZIO CITTA REGIONE STATO RESP. VENDITE DISTRETTO VENDITA tipo stato negozio responsabile delle vendite distretto di vendita (*) Sironi vendita qtà venduta incasso num. clienti prezzo unitario 8 REPARTO CATEGORIA TIPO PRODOTTO GRUPPO MARKETING reparto categoria regione prodotto gruppo marketing (0,n) MARCA CITTA MARCA DATA MESE TRIMESTRE ANNO SETTIMANA GIORNO VACANZA vacanza anno trimestre mese data giorno settimana NEGOZIO CITTA REGIONE STATO RESP. VENDITE DISTRETTO VENDITA tipo stato negozio responsabile delle vendite distretto di vendita (*) Sironi

stato regione STATO REGIONE CITTA reparto categoria tipo prodotto REPARTO CATEGORIA TIPO PRODOTTO GRUPPO MARKETING CITTA MARCA MARCA gruppo marketing ANNO TRIMESTRE MESE anno mese trimestre negozio NEGOZIO RESP. DISTRETTO VENDITE VENDITA responsabile delle vendite distretto di vendita vendita qtà venduta incasso num. clienti prezzo unitario (*) Sironi vacanza data DATA VACANZA GIORNO settimana SETTIMANA giorno Il DFM: corrispondenza con l E/R stato reparto categoria gruppo marketing anno regione tipo trimestre prodotto mese negozio vendita qtà venduta incasso num. clienti prezzo unitario vacanza data giorno settimana responsabile delle vendite distretto di vendita (*) Sironi 10 5

Il DFM: corrispondenza con l E/R reparto gruppo marketing stato categoria anno regione tipo trimestre prodotto mese negozio vendita qtà venduta incasso num. clienti prezzo unitario vacanza data giorno settimana responsabile delle vendite distretto di vendita (*) Sironi 11 Il DFM: corrispondenza con l E/R stato reparto categoria gruppo marketing anno regione tipo trimestre prodotto mese negozio responsabile delle vendite distretto di vendita vendita qtà venduta incasso num. clienti prezzo unitario data vacanza giorno settimana (*) Sironi 12 6

Il DFM: corrispondenza con l E/R Corrispondenze tra schema di fatto e diagramma E/R Al fatto e alle sue misure corrispondono una relazione con attributi (in altri casi possono corrispondere ad una entità con attributi); A ciascun attributo dimensionale corrisponde un entità che ha quell attributo come identificatore; A ciascun arco di una gerarchia corrisponde un associazione molti a uno; Il collegamento tra fatto e dimensione corrisponde ad una relazione (0,n). 13 Naming conventions Tutti gli attributi dimensionali in ciascuno schema di fatto devono avere nomi diversi Eventuali nomi uguali devono essere differenziati qualificandoli con il nome di un attributo dimensionale che li precede nella gerarchia Ad esempio, warehouse city è la in cui si trova un magazzino, mentre store city è la in cui si trova un negozio I nomi degli attributi non dovrebbero riferirsi esplicitamente al fatto a cui appartengono Ad esempio, si evitino shipped product e shipment date Attributi (dimensionali e non) con lo stesso significato in schemi diversi devono avere lo stesso nome 14 7

Evento primario Un evento primario è una particolare occorrenza di un fatto, individuata da una ennupla costituita da un valore per ciascuna dimensione. A ciascun evento primario è associato un valore per ciascuna misura Con riferimento alle vendite, un possibile evento primario registra per esempio che, il 10/10/2001, nel negozio NonSoloPappa sono state vendute 10 confezioni di detersivo Brillo per un incasso complessivo pari a 25 euro 15 Evento secondario Dato un insieme di attributi dimensionali (pattern), ciascuna ennupla di loro valori individua un evento secondario che aggrega tutti gli eventi primari corrispondenti. A ciascun evento secondario è associato un valore per ciascuna misura, che riassume in sé tutti i valori della stessa misura negli eventi primari corrispondenti Con riferimento alle vendite, la ennupla ( del negozio: Roma, prodotto: Brillo, mese: 10/2001 ) individua un evento secondario che aggrega tutti gli eventi primari relativi a vendite di prodotto Brillo, effettuate nell ottobre 2001 in tutti i negozi di Roma. Il valore della misura incasso sarà espresso come la somma degli incassi relativi a tutte le vendite aggregate. Pertanto, le gerarchie definiscono il modo in cui gli eventi primari possono essere aggregati e selezionati significativamente per il processo decisionale; mentre la dimensione in cui una gerarchia ha radice ne definisce la granularità più fine di aggregazione, agli altri attributi dimensionali corrispondono granularità via via crescenti 16 8

Eventi e aggregazione mese negozio tipo parte mese negozio tipo parte sparsità operatori di aggregazione parte data 17 Il DFM: costrutti avanzati Un attributo descrittivo contiene informazioni aggiuntive su un attributo dimensionale di una gerarchia, a cui è connesso da una associazione uno-auno. Non viene usato per l aggregazione poiché ha valori continui e/o poiché deriva da una associazione uno-a-uno Alcuni archi dello schema di fatto possono essere opzionali arco opzionale Nota: l opzionalità in diversi casi può (ed è opportuno che possa) essere evitata. [Sironi] attributo descrittivo 18 9

Il DFM: costrutti avanzati Un attributo crossdimensionale è un attributo, dimensionale o descrittivo, il cui valore è determinato dalla combinazione di due o più attributi dimensionali, eventualmente appartenenti a gerarchie distinte attributo crossdimensionale Altro esempio: modellare l attributo booleano feriale. 19 Il DFM: costrutti avanzati Due attributi dimensionali possono essere connessi da due o più cammini direzionati distinti, a patto che ciascuno di essi rappresenti ancora una dipendenza funzionale (convergenza) convergenza 20 10

Il DFM: costrutti avanzati La gerarchia condivisa è un abbreviazione usata per denotare il fatto che una porzione di gerarchia è replicata più volte nello schema ruolo gerarchia condivisa 21 Il DFM: costrutti avanzati Un arco multiplo modella un associazione molti-a-molti tra due attributi dimensionali arco multiplo 22 11

Il DFM: costrutti avanzati Una gerarchia incompleta è una gerarchia in cui, per alcune istanze, risultano assenti (in quanto non noti oppure non definiti) uno o più livelli di aggregazione gerarchia incompleta 23 Il DFM: costrutti avanzati additività 24 12

Additività L aggregazione richiede di definire un operatore adatto per comporre i valori delle misure che caratterizzano gli eventi primari in valori da abbinare a ciascun evento secondario Da questo punto di vista è possibile distinguere tre categorie di misure: Misure di flusso: si riferiscono a un periodo, al cui termine vengono valutate in modo cumulativo (il numero di prodotti venduti in un giorno, l incasso mensile, il numero di nati in un anno) Misure di livello: vengono valutate in particolari istanti di tempo (il numero di prodotti in inventario, il numero di abitanti di una ) Misure unitarie: vengono valutate in particolari istanti di tempo, ma sono espresse in termini relativi (il prezzo unitario di un prodotto, la percentuale di sconto, il cambio di una valuta) 25 Additività Una misura è detta additiva su una dimensione se i suoi valori possono essere aggregati lungo la corrispondente gerarchia tramite l operatore di somma La misura quantità venduta dello schema delle vendite è additiva sulla dimensione temporale Una misura è detta non-additiva su una dimensione se i suoi valori non possono essere aggregati lungo la corrispondente gerarchia tramite l operatore di somma La misura prezzo unitario dello schema delle vendite è non-additiva sulla dimensione temporale Una misura non-additiva è non-aggregabile se nessun operatore di aggregazione può essere usato su di essa La misura numero clienti dello schema delle vendite è non-aggregabile sulla dimensione prodotto (è additiva sulle altre dimensioni). 26 13

Misure additive Misure non-additive La media delle medie parziali di un insieme di valori è differente dalla media dello stesso insieme di valori. 28 14

Schemi di fatto vuoti Uno schema di fatto si dice vuoto se non ha misure In questo caso, il fatto registra solo il verificarsi di un evento 29 Sovrapposizione di schemi Una query di drill-across mette in relazione misure appartenenti a fatti diversi La presenza di query di drill-across richiede di definire quali misure e quali pattern di aggregazione possano essere utilizzati quando si interrogano 2 o più schemi di fatto. In uno schema sovrapposto: Le misure sono l unione delle misure presenti nei vari schemi Le gerarchie includono solo gli attributi presenti in entrambe le gerarchie Il dominio di ogni attributo è l intersezione del dominio dei corrispondenti attributi sugli schemi di origine 30 15

Sovrapposizione di schemi 31 16