Università degli studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Rassegna sui principi e sui sistemi di Data Warehousing Tesi di laurea di: Emanuela Scionti Relatore: Chiar.mo Prof.Montesi Danilo II Sessione Anno accademico 2001/2002
Sommario Introduzione Evoluzione della base di dati Definizione di Data Warehouse La modellazione multidimensionale dei dati Architettura I Metadati Progettazione Approccio Metodologico al Data Warehouse Progettazione Concettuale Progettazione Logica Progettazione Fisica e Interrogazioni SQL Applicazioni Conclusioni 1
Evoluzione della base di dati La funzione svolta dalle base di dati in ambito aziendale era solo quella di memorizzare giornalmente dati eseguire su di essi operazioni semplici Aumento esponenziale del volume dei dati operazionali Abbondanza di ridondanza ed inconsistenza dei dati Mercato molto competitivo + Nascita di sistemi di supporto alle decisioni (DSS) Costruzione di Data Warehouse 2
Definizione di Data Warehouse Un Data Warehouse è una base dati che attingendo periodicamente sia dal sistema informativo aziendale sia da altre sorgenti informative raccoglie e mette insieme informazioni presentandole in modo comprensibile a chi deve prendere decisioni. una raccolta di dati (W.H.Inmon): orientata ai soggetti integrata conflitto di tipi char(10) int varchar(12) varchar(12) non volatile dipendente dal tempo 3
La modellazione multidimensionale dei dati L analisi dei dati avviene rappresentando i dati in forma multidimensionale Unità di base: Fatto Misure Dimensioni n di lattine di aranciata vendute al supermercato X di una città Y il 18 Novembre 2002 Negozio Tempo n di lattine di pompelmo completamente vendute n di lattine di limonata vendute il 18 Novembre 2002 Prodotto 4
Architettura di un Data Warehouse strumenti di query e reporting strumenti EIS (Executive Information System) strumenti OLAP - ROLAP - MOLAP - HOLAP 5
I metadati Sono le informazioni relative ai dati stessi Metadati tecnici utili allo sviluppatore Metadati di business servono all utente finale / analista 6
Approccio metodologico al Data Warehouse Approccio top-down: implementazione estensiva del sistema Data Warehouse Marketing Finanza Regioni Geografiche Gestione Clienti Gestione Fornitori Approccio botton-up Data Warehouse Marketing Finanza Regioni Geografiche Gestione Clienti Gestione Fornitori Approccio incrementale: viene creato un modello informativo comune 7
Progettazione concettuale (1/2) 8
Progettazione concettuale (2/2) Gerarchie Dimensioni Attributi dimensionali Fatto Misure Attributi non dimensionali 9
Progettazione logica (1/1) Determinare la struttura logica del DW significa indicare il modello logico del DBMS su cui il DW viene implementato Modello multidimensionale Modello relazionale Schema a Stella tabelle dei fatti e delle dimensioni ogni tabella delle dimensioni è in relazione uno-a-molti con la tabella centrale dei fatti la chiave primaria di una tabella delle dimensioni è chiave esterna per la tabella dei fatti 10
Progettazione logica (2/2) Schema a costellazione dei fatti Suddivisione delle tuple a seconda del livello di aggregazione Schema a fiocco di neve Estensione del modello a stella Permette di evitare ridondanze eccessive nelle dimensioni 11
Progettazione fisica e Interrogazioni sql Il disegno fisico viene realizzato quando viene tradotto lo schema logico in strutture di un database Esempi di Interrogazioni Esaminare le entrate di ogni mese di ogni anno per poter determinare quali siano i mesi che attirano più clienti SELECT T.Anno, T.Mese, SUM(P.QuotaSaldo) as Reddito /* attributi selezionati */ FROM Prenotazioni P, Tempo T /* tabelle utilizzate */ WHERE P.Arrivo = T.Data /* condizioni di join */ GROUP BY T.Anno, T.Mese /* condizione di raggruppamento */ ORDER BY T.Anno DESC, T.Nummese ASC /* ordinamento del risultato */ Determinare i prodotti maggiormente venduti ogni anno per potersi regolare nella loro produzione SELECT T.Anno, P.Descrizione, SUM(V.Unita) as NrProdotti FROM Vendite V, Prodotti P, Tempo T WHERE V.CodiceProdotto = P.Codice AND V.Data = T.Data GROUP BY P.Descrizione, T.Anno ORDER BY NrProdotti DESC, Anno DESC 12
Applicazioni Per la ricerca dei dati vengono effettuate operazioni di ricerca quali Drill Down: disaggrega i dati Drill up o Roll up: aggrega i dati Per le analisi su grandi quantità di dati viene utilizzato l OLAP (On Line Analytical Processing) Fast Analysis Shared Multidimensional Information 13
Conclusioni Il Data Warehouse non è né un programma, né un insieme di prodotti, ma una metodologia di trattamento e di conservazione dei dati La creazione di un Data Warehouse implica Periodo di sviluppo di due anni mediamente Spese molto elevate Preparazione dei manager al suo utilizzo Porre maggiore attenzione a come vengono inseriti i dati nei database 14