Università degli Studi Roma Tre - Corso di Laurea in Matema9ca. Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica

Documenti analoghi
Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Data warehouse Introduzione

Data Warehousing (DW)

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Rassegna sui principi e sui sistemi di Data Warehousing

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

1. BASI DI DATI: GENERALITÀ

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Organizzazione degli archivi

Sistemi centralizzati e distribuiti

Il database management system Access

Le Basi di Dati. Le Basi di Dati

La suite Pentaho Community Edition

B C I un altro punto di vista Introduzione

Ciclo di vita dimensionale

PBI Passepartout Business Intelligence

Dispensa di database Access

Introduzione alla teoria dei database relazionali. Come progettare un database

Convegno 6 giugno 2013 Federlazio Frosinone

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

SQL Server Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

Organizzazione delle informazioni: Database

Introduzione alla Business Intelligence

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Data Mining a.a

Database. Si ringrazia Marco Bertini per le slides

Finalità della soluzione Schema generale e modalità d integrazione Gestione centralizzata in TeamPortal... 6

Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it

un insieme di processi per raccogliere e analizzare informazioni e dare risposta a esigenze di:

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Cosa è un data warehouse?

Corso di Basi di Dati e Conoscenza

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Introduzione al data base

Progettazione di una base di dati Ufficio della Motorizzazione

L integrazione end-to-end della Fatturazione e degli scambi informativi con la Distribuzione

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Introduzione alla Business Intelligence.

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

Data warehousing con SQL Server

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Il Business Performance Management & QlikView

DATA BASE SCONTRINI. M46 GDS documentazione Verticale R0

Data Warehouse Architettura e Progettazione

Progettaz. e sviluppo Data Base

MODULO 5 Appunti ACCESS - Basi di dati

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

Volumi di riferimento

Progettazione di Basi di Dati

Nuova Interfaccia grafica. Al passo con i tempi. Interagisce e Informa

Facoltà di Farmacia - Corso di Informatica

MICHELANGELO REPORT è un

On Line Analytical Processing

I database relazionali (Access)

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Esercizio data base "Biblioteca"

Brochure Internet. Versione The Keyrules Company s.r.l. Pagina 2 di 8

Dominio applicativo. Analisi e ricognizione delle fonti dati

Data warehousing con SQL Server

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

TEORIA sulle BASI DI DATI

ARCHIVI E DATABASE (prof. Ivaldi Giuliano)

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

DSCube. L analisi dei dati come strumento per i processi decisionali

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione

ECDL - Database. European Computer Driving Licence - Modulo 5 - Database LEZIONE 2

Registratori di Cassa

MANUALE DELLA QUALITÀ Pag. 1 di 6

Introduzione ad OLAP (On-Line Analytical Processing)

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

Pagina 2 di 14. Indice

Le configurazioni di costo

Il Valore Aggiunto del Sistema dei Controlli Interni Integrato

LUdeS Informatica 2 EXCEL. Seconda parte AA 2013/2014

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

lem logic enterprise manager

Strutturazione logica dei dati: i file

Lorenzo Braidi. Database design. Libro_datadesign.indb :06:17

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

SQL Server. Applicazioni principali

Retail L organizzazione innovativa del tuo punto vendita

Software di sistema e software applicativo. I programmi che fanno funzionare il computer e quelli che gli permettono di svolgere attività specifiche

L amministratore di sistema. di Michele Iaselli

IL SISTEMA INFORMATIVO

Informatica I per la. Fisica

Al giorno d oggi, i sistemi per la gestione di database

Data Warehousing. Esercitazione 1

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

Sistemi Informativi e Basi di Dati

Transcript:

Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica Sistemi per l elaborazione delle informazioni 6. Data warehouse Dispense del corso IN530 prof. Marco Liverani Sistemi operazionali e informazionali Nell ambito di un sistema informa9vo si dis9ngue tra somosistemi o componen9 del sistema informa9vo di due 9pologie macroscopiche dis9nte: 1. sistemi operazionali 2. sistemi informazionali Sistemi operazionali: sono i sistemi di supporto opera1vo allo svolgimento delle apvità is9tuzionali dell azienda o dell ente Sistemi informazionali: sono sistemi di supporto alle decisioni che supportano l organizzazione nelle proprie scelte strategiche e nello studio e nella comprensione dell andamento di specifici indicatori che sono ritenu9 significa9vi in uno specifico ambito di business (es.: le vendite per un azienda commerciale, il numero di iscrip e di laurea9 per un Università, ecc.) Entrambe le 9pologie di sistema sono supportate da archivi informa9ci (database) progema9 ed u9lizza9 in modo differente, al fine di supportare al meglio gli obiepvi del sistema M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 1

Database operazionali Un database operazionale è un archivio che garan9sce la persistenza ad un applicazione che deve operare sui da9 dell archivio per realizzare funzioni di business Esempio 1: l archivio dei libri di una biblioteca viene u9lizzato per consen9re la ricerca efficiente dei volumi da parte degli uten9, viene frequentemente aggiornato tracciando i nuovi libri acquista9 dalla biblioteca, i volumi in pres9to, gli uten9 registra9, i tes9 persi o dismessi; Esempio 2: l archivio del magazzino dei prodop di un negozio viene u9lizzato per garan9re gli approvvigionamen9 di prodop vendu9, ges9re le scadenze dei prodop alimentari deperibili, aggiornare i prezzi dei prodop e automa9zzare il calcolo del conto per ogni cliente in fase di pagamento alle casse, ecc. In un database operazionale le quamro operazioni di inserimento, selezione, aggiornamento e cancellazione sono ugualmente frequen1 e riguardano pochi da9 per volta: i da9 in archivio sono tup e soli quelli necessari all opera9vità del programma In un database operazionale i da1 hanno una profondità temporale limitata: vengono conserva9 solo i da9 effepvamente u9li a supportare le operazioni svolte dal programma che u9lizza l archivio I DBMS sono progema9 per svolgere elaborazioni di 9po OLTP: On Line Transac,on Processing il DBMS supporta strumure normalizzate per la memorizzazione efficiente delle informazioni, indici per la ricerca efficiente dei da9, transazioni per l elaborazione di sequenze di operazioni in modalità reversibile Database informazionali Un database informazionale (in inglese: data warehouse, magazzino dei da9) è un archivio la cui funzione d uso è la costruzione di una base informa9va che cresce nel tempo, u9le per fornire informazioni u9li alla comprensione di un fenomeno, allo studio di un andamento Esempio 1: l archivio delle vendite dei prodop di una catena di supermerca9, storicizzate nel tempo, consente di studiare la stagionalità nella vendita di determina9 prodop, prevedere i consumi, gli acquis9 dei clien9 e provvedere quindi al corremo approvvigionamento del magazzino Esempio 2: l archivio dei da1 storici degli studen1 iscrif ai diversi corsi di laurea di un Ateneo, tenendo conto anche del 9tolo di studio posseduto al momento dell iscrizione all Università, al fine di studiare le tendenze in ambito forma9vo e dimensionare corremamente la futura offerta forma9va In un database informazionale l operazione più frequente è la selezione; le operazioni di aggiornamento e di cancellazione sono rarissime (vengono effemuate solo per migliorare la qualità dei da9 presen9 nel data warehouse); le operazioni di inserimento per il caricamento dei da9 in archivio avviene periodicamente e riguarda grosse quan9tà di da9 La profondità storica dei da9 presen9 nel data warehouse è fondamentale per poter u9lizzare i da9 come oggemo di analisi e studiare l evoluzione storica delle informazioni I Data Warehouse (DWH) sono progema9 per eseguire operazioni di 9po OLAP: On Line Analy,cal Processing L archivio è organizzato su strumure mul9dimensionali per favorire l analisi su dimensioni differen9 (es.: la professione dei clien9 di un supermercato, l età, la stagionalità dei prodop, ecc.) M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 2

Integrazione di da1 provenien1 da fon1 eterogenee Un data warehouse viene costruito aggregando in un unico database da9 provenien9 da fon1 differen1, che tramano da9 eterogenei e con rappresentazioni spesso incompa9bili Nel data warehouse tup ques9 da9 devono trovare invece una codifica omogenea: in fase di caricamento i da9 vengono ricodifica9 per sposare la codifica e la seman9ca del data warehouse Esempio: in un database di un supermercato la tabella dei clien9 che hanno somoscrimo una tessera fedeltà può contenere il codice fiscale del cliente nel data warehouse l analisi può essere condoma sulla base dell età dei clien9, del genere e del luogo di nascita: da9 che possono essere desun9 dal CF in fase di caricamento Nel data warehouse i da9 sono rappresenta9 in modo da supportare specifici temi di analisi focalizza9 di volta in volta su soggef diversi Esempio: aptudini di acquisto dei clien9 à il soggemo è il cliente efficienza dei diversi pun9 vendita à il soggemo è il punto vendita (il negozio) stagionalità del prodomo à il soggemo è il prodomo le diverse linee di analisi sono costruite intorno all archivio degli even9 vendita di un prodomo Processo di aggregazione e di analisi La costruzione di un data warehouse è centrata sul processo di aggregazione e di integrazione di informazioni provenien9 da tante basi da9 differen9 Lo scopo del data warehouse è quello di supportare apvità di analisi rese possibili proprio dall aggregazione in un unico archivio di da9 provenien9 da fon9 differen9, che offrano una vista unificata su tup gli aspep rilevan9 dell apvità di business Esempio: non l archivio dei clien9, dei prodop presen9 in magazzino e degli incassi registra9 nei singoli pun9 vendita, ma il data warehouse delle vendite i cui elemen9 sono record che aggregano informazioni rela9ve al prodomo venduto, al cliente che lo ha acquistato, al prezzo che è stato pagato per approvvigionarsi del prodomo, al ricavo che è stato omenuto dalla vendita, al negozio che ha effemuato la vendita e la data in cui la vendita è stata effemuata Vendite di limonata 40 35 30 25 20 15 10 5 0 2013 2015 gen- feb mar- apr mag- giu lug- ago sem- om nov- dic Supermerca0 ACME 51-65 32% >65 11% Età dei clien9 <25 16% 35-50 29% 26-35 12% M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 3

StruMura logica di un data warehouse Nella progemazione di un data warehouse è essenziale iden9ficare i seguen9 elemen9 nel contesto informa9vo che si vuole rappresentare ed analizzare: famo misure dimensioni I faf sono l insieme dei da9 da analizzare; 9picamente sono even9 che si collocano nel tempo e sono caramerizza9 da diverse informazioni associate al singolo famo Esempio: le vendite della ACME; ogni evento di vendita è un famo caramerizzato da numerose informazioni, quali il prodomo venduto, la quan9tà venduta, il valore della merce, il cliente, la collocazione geografica del negozio, la data e l ora della vendita, la categoria merceologica del prodomo, ecc. Le misure sono da9 quan9ta9vi numerici che rappresentano gli aspep da misurare in relazione all analisi dei fap Esempio: la quan9tà di un determinato prodomo per ciascuna vendita, il ricavo per ciascuna vendita, ecc. le dimensioni sono informazioni che caramerizzano il famo, a valori discre9, rappresentano le linee di analisi dei fap (o meglio: delle misure associate ai fap) Esempio: i prodop di un supermercato, il tempo, i clien9, ecc. StruMura logica di un data warehouse Le dimensioni di analisi dei fap di un data warehouse possono essere numerose È possibile stabilire una dipendenza gerarchica tra alcune delle dimensioni di analisi, in modo da aggregare o espandere le informazioni rela9ve all analisi di una determinata dimensione Esempio: nel data warehouse delle vendite della ACME alcune dimensioni di analisi possono essere aggregate formando delle gerarchie: Gerarchia della dimensione del prodomo venduto: prodomo à marca à categoria merceologica Gerarchia del tempo in cui sono avvenute le vendite: giorno à mese à anno Gerarchia dei clien9: nome à età à genere à professione, o anche: nome à 9tolo di studio à età à genere Definendo una gerarchia nella dimensione si crea una strumura ad albero nei valori discre9 delle dimensioni Esempio: SpagheP Barilla Pasta Fusilli De Cecco Rigatoni BiscoP Categoria merceologica Gen9lini Pavesi Marca SpagheP Linguine Prodo6o M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 4

Dimensional Fact Model Il Dimensional Fact Model (Golfarelli e Rizzi, Università di Bologna, 1998) è un formalismo grafico per la modellazione logica di un data warehouse Nel DFM si focalizza l amenzione proprio sui rappor9 tra fap, misure e dimensioni, memendo in evidenza eventuali gerarchie nelle dimensioni FaMo: rappresentato con un remangolo iden9ficato dal nome del famo stesso; Misure: riportate all interno del remangolo che iden9fica il famo a cui si riferiscono; Dimensioni: sono collegate al famo, come i ver9ci di un grafo, o ad altre dimensioni con le quali esista una dipendenza gerarchica FaMo Negozio CiMà Provincia Regione Vendita Giorno Mese Anno DOVE Quan9tà QUANDO Prezzo Misure COSA Distributore Cat. Merc. ProdoMo ProdoMo Marca Marca Dimensioni Operazioni di analisi su un DWH Su un data warehouse organizzato sulla base di fap, misure e dimensioni l operazione 9pica è quella di estrazione dei da9 (misure) riporta9 nei fap, aggregandoli sulla base di una o più dimensioni L obiepvo è il calcolo di una funzione di gruppo sui somo- insiemi omenu9 eseguendo un par9zionamento dei da9 presen9 nel data warehouse in base all aggregazione per una o più dimensioni (es.: par9zionamento su base geografica (regioni, province, comuni) e/o su base temporale (aggregazione per anno, mese, giorno) Il calcolo che può essere famo sulle misure (che per questo sono di 9po numerico) sono le 9piche funzioni di gruppo già esaminate nel linguaggio SQL: conteggio dei record (fap), per ricavare la cardinalità dei somoinsiemi della par9zione somma o media aritme9ca sui valori di una specifica misura nei diversi somoinsiemi della par9zione minimo o massimo valore sui valori di una misura nei somoinsiemi della par9zione Esempio: le vendite dei supermerca9 ACME aggregate per regione e provincia (somma totale e somme parziali) e per anno Le funzioni di calcolo non si riducono solo alle funzioni di gruppo offerte da SQL, ma possono essere anche funzioni sta1s1che più sofis9cate implementate dal sonware u9lizzato per effemuare l analisi dei da9 presen9 nel data warehouse (business intelligence) M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 5

Operazioni di analisi su un DWH Prendendo ad esempio il Dimensional Fact Model delle vendite dei supermerca9 ACME, possiamo calcolare facilmente un aggregazione per regioni e province e la distribuzione nel tempo delle vendite Negozio CiMà Provincia Regione LUOGO Vendita Quan9tà Prezzo Giorno Mese TEMPO Anno OGGETTO Distributore Cat. Merc. ProdoMo ProdoMo Marca Marca Regione Provincia 2012 2013 2014 2015 Roma 6.400 6.850 7.630 9.125 Lazio Viterbo 1.850 1.930 2.360 2.270 La,na 2.450 2.820 3.515 3.920 Napoli 5.850 6.230 6.540 6.520 Campania Salerno 3.810 4.200 4.075 4.350 Modello mul1dimensionale e ipercubi Il Dimensional Fact Model con cui viene definita la strumura logica di un data warehouse, ci suggerisce la possibilità di rappresentare il data warehouse come uno spazio mul9dimensionale, in cui i fap siano dei pun9 posiziona9 nello spazio sulla base di coordinate definite dal valore del famo per ciascuna delle dimensioni del modello Ricordiamo che le dimensioni sono insiemi discre9 di cardinalità finita (es.: gli anni della profondità storica del data warehouse, i prodop vendu9 dai Supermerca9 ACME, i clien9, i fornitori, ecc.) Il data warehouse può quindi essere rappresentato come un cubo (quando le dimensioni indipenden9 di analisi sono tre) o un ipercubo (quando le dimensioni indipenden9 sono in numero maggiore di tre) i cui elemen9 sono i fap del data warehouse Su ciascuna delle dimensioni dell ipercubo sono distribui9 (con un ordine arbitrario) i valori discre9 della dimensione stessa M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 6

Modello mul1dimensionale e ipercubi Consideriamo un modello a tre dimensioni: un database delle vendite i cui fap sono le operazioni di vendita e le cui dimensioni siano il tempo, il prodomo venduto, il cliente Mese- Anno Vendita ProdoMo Cliente Clienti Cliente: Maria Rossi Prod.: BiscoF Gen1lini Tempo: 2015-04- 18 Quan9tà: 1 Prezzo: 1,50 Il data warehouse può essere rappresentato come un ipercubo n- dimensionale (un cubo a tre dimensioni nell esempio in figura) Ogni punto del cubo è un famo o una aggregazione di fap iden9fica9 dagli stessi valori delle dimensioni; il famo è iden9ficato da un valore del dominio su ciascuna dimensione Nell esempio ogni punto del cubo rappresenta l acquisto di un prodomo effemuato da un cliente in un certo giorno Tempo Prodotti Modello MOLAP per la rappresentazione del DWH Alcuni sistemi rappresentano il data warehouse proprio con un cubo mul9dimensionale, u9lizzando apposite strumure da9: tali sistemi si chiamano MOLAP (mul,dimensional on- line analy,cal processing) La rappresentazione di un ipercubo OLAP è assai onerosa in termini di risorse di memoria La strumura di ipercubo spesso è piena di buchi, se i fap sono dispos9 nel cubo in modo poco denso: questo rende poco efficiente la rappresentazione direma mediante un cubo D altra parte la rappresentazione con un ipercubo OLAP rende immediate e molto efficien9 in termini di tempo le operazioni di analisi: slice: si estrae una fema dell ipercubo, analizzando l archivio fissando il valore di una o più dimensioni dice: si estrae un somo- cubo, analizzando l archivio fissando un somoinsieme di valori per ogni dimensione roll- up: si aggregano i da9 delle misure (somma, media, conteggio, altre funzioni sta9s9che) sulla base di un valore di una o più dimensioni drill- down: si spacchemano da9 aggrega9 sulla base di una o più dimensioni (o limitatamente ad alcuni livelli della gerarchia delle dimensioni) per omenere maggior demaglio M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 7

Il modello ROLAP per la rappresentazione del DWH Lo stesso data warehouse può essere rappresentato u9lizzando un DBMS relazionale (RDBMS) costruendo uno schema a stella (star schema), sulla falsa riga del dimensional fact model: Al centro dello star schema c è la tabella dei fap La tabella dei fap è collegata con le tabelle delle dimensioni amraverso opportune chiavi esterne (foreign key) In questo modo si u9lizza uno strumento robusto e ben consolidato, potendo contare anche sul linguaggio SQL per l esecuzione delle operazioni di aggregazione (slice e roll- up) e di scomposizione (dice e drill- down) dei da9 del data warehouse La rappresentazione ROLAP (rela,onal on- line analy,cal processing) è più efficiente in termini di risorse di memoria, ma può risultare meno efficiente nell esecuzione delle operazioni di analisi, a meno di non u9lizzare accuratamente degli indici per velocizzare le operazioni di selezione e aggregazione ArchiteMura di un sistema data warehouse L architemura del sistema di data warehouse è definita sulla base delle componen9 funzionali che si vuole integrare per cos9tuire il sistema informazionale dell azienda: sorgen9 informa9ve archivio centralizzato (il data warehouse) strumen9 di analisi dei da9 facilmente accessibili dagli uten9 Possiamo quindi schema9zzare come in figura l architemura di un sistema DWH: Disk Data Base Proces Proces Proces s sdata s File Estrazione, trasformazione e caricamento dei dati Estrazione, trasformazione e caricamento dei dati Data Warehouse Data Mart Strumenti di analisi (Business Intelligence) Data Base Estrazione, trasformazione e caricamento dei dati Data Mart Strumenti di analisi (Business Intelligence) Data Source ETL / ELT DWH BI M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 8

ArchiteMura di un sistema data warehouse I sistemi sorgente per l alimentazione del data warehouse sono spesso i database dei sistemi operazionali dell azienda (anagrafica dei fornitori, anagrafica dei clien9, database degli acquis9 e delle vendite, ecc.) I sistemi sorgente sono per loro natura eterogenei: possono essere cos9tui9 da sistemi di 1po diverso (diversi 9pi di DBMS, file in forma9 proprietari o XML, ecc.) differente rappresentazione delle informazioni (diversa codifica, diversi 9pi di dato per amribu9 analoghi su sorgen9 diverse, ecc.) sono ospita9 da sistemi opera1vi e da server differen1, collega9 in rete con il sistema Data Warehouse aziendale Le procedure ETL (extract transform and load) consentono di eseguire periodicamente delle query di estrazione dei da9 dai sistemi sorgente e li trasformano codificandoli in una modalità omogenea (come formato e come contenuto) per poi caricarli sul data warehouse Bisogna definire: la modalità opera9va della procedura ETL (agent- based, agentless, ecc.) la periodicità con cui avviene l estrazione da ciascuna sorgente (tup i giorni, tup i mesi, ecc.) la logica di selezione dei da9 da estrarre dalla sorgente (è necessario implementare una logica per non caricare ogni volta tup i da9, ma solo quelli nuovi o modifica9 sulla sorgente) la codifica e la modalità di rappresentazione di da9 eterogenei in un modello unico (ipercubo OLAP o star schema) ArchiteMura di un sistema data warehouse Il data warehouse vero e proprio è cos9tuito da uno strumento RDBMS eventualmente dotato di opportuni moduli di ges9one di ipercubi OLAP Il DWH è cos9tuito da uno o più data mart, ossia porzioni autonome del data warehouse, ineren9 una determinata tema9ca di analisi La suddivisione del data warehouse in più data mart è eseguita sulla base di considerazioni di efficienza nelle operazioni di analisi e di riservatezza delle informazioni che vengono rese disponibili agli uten9 Il DWH ha bisogno di un apvità di manutenzione con1nua finalizzata a: verificare la correma esecuzione delle operazioni di caricamento dei da9 verifica dei da9 carica9 sul data warehouse, per correggere eventuali incongruenze dovute alla errata amuazione delle regole di trasformazione dei da9 in fase di caricamento (data quality) tuning per migliorare l efficienza del sistema, creando o ricreando indici sulle tabelle, gestendo l enorme mole di da9 del data warehouse, amraverso la par9zione fisica dei data file su cui si appoggia il DBMS progemazione e realizzazione di nuove procedure di analisi e presentazione dei da9 (report, cruscop, dashboard) M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 9

ArchiteMura di un sistema data warehouse La componente di presentazione dei da9 anali9ci e di sintesi, è spesso una componente sonware che implementa complesse funzionalità di analisi e di rappresentazione grafica delle misure presen9 sul data warehouse Si parla in ques9 casi di sistema di Business Intelligence (BI), uno strumento sonware su cui è possibile definire: report corrisponden9 a specifiche viste sul data warehouse cruscop e dashboard di sintesi, anche in forma grafica (istogrammi, grafi,...) strumen9 per eseguire dinamicamente le operazioni di navigazione dei da9 presen9 nel modello mul9dimensionale del data warehouse (drill- down, roll- up, slice, dice, pivo,ng, ecc.) I sonware di BI sono programmi che si agganciano ad un modello mul9dimensionale del data warehouse ed offrono funzioni di rielaborazione e presentazione dei da9 stessi; frequentemente i sonware di BI sono applicazioni web based Con i moduli di modeling/design di un prodomo BI, l utente può costruire i propri report e cruscop, senza dover necessariamente conoscere la strumura fisica del database somostante, né il linguaggio SQL Bibliografia essenziale 1 Golfarelli, Rizzi, Data Warehouse teoria e pra,ca della ProgeSazione, McGraw- Hill, 2006 2 Kimball, Ross, The Data Warehouse Toolkit: The Defini,ve Guide to Dimensional Modeling, terza edizione, Wiley, 2013 3 Golfarelli, Maio, Rizzi, The Dimensional Fact Model: a Conceptual Model for Data Warehouses, Interna9onal Journal of Coopera9ve Informa9on Systems, vol. 7, n. 2&3, 1998 4 Golfarelli, Rizzi, ProgeSazione concesuale di Data Warehouse da schemi logici relazionali, Proceedings Sesto Convegno Nazionale su Sistemi Evolu9 Per Basi Di Da9, Ancona, 1998 M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 10

Oracle Business Intelligence Una,pica schermata del prodoso Oracle Business Intelligence Enterprise Edi,on, che consente di costruire cruscoy di analisi da,, accessibili con un web browser, per eseguire ayvità di analisi su un data warehouse M. Liverani - Dispense del corso IN530 - Sistemi per l'elaborazione delle informazioni 11