Lezione 7. Data Warehouse & OLAP



Documenti analoghi
OLAP On Line Analytical Processing

Ambienti Operativi per OLAP. Casi di Studio

Data Warehousing (DW)

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Star Schema. Progettazione Logica ROLAP 30/05/2014

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

La suite Pentaho Community Edition

Cosa è un data warehouse?

Introduzione ad OLAP (On-Line Analytical Processing)

Data warehouse Introduzione

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale

B C I un altro punto di vista Introduzione

Lezione 9. Ambienti Operativi per OLAP Casi di Studio 08/03/2010 1

Data Warehousing. Esercitazione 1

Data warehousing con SQL Server

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Data warehousing con SQL Server

Lezione 9. Microsoft Analysis Services: Principi e Funzionalità

Data warehousing con SQL Server

SQL Server BI Development Studio

PBI Passepartout Business Intelligence

Data Warehouse Architettura e Progettazione

Data Warehousing e Data Mining

DSCube. L analisi dei dati come strumento per i processi decisionali

Il modello dimensionale

Capitolo 13. Interrogare una base di dati

Volumi di riferimento

SQL Server Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

Basi di Dati Complementi Esercitazione su Data Warehouse

Lorenzo Braidi. Database design. Libro_datadesign.indb :06:17

SQL Server. Applicazioni principali

Data warehousing con SQL Server

Progetto Turismo Pisa

Data warehousing e OLAP

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Pivot Tables. vendite raggruppate per prodotto e zona vendite raggruppate per prodotto e mese

Dispensa di database Access

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

Database. Si ringrazia Marco Bertini per le slides

Introduzione al data warehousing

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Business Intelligence & Data Mining. In ambiente Retail

Lezione V. Aula Multimediale - sabato 29/03/2008

La Metodologia adottata nel Corso

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

Nota Metodologica DW Congiuntura USA

Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R:

SQL/OLAP. Estensioni OLAP in SQL

processi analitici aziendali

SISTEMI INFORMATIVI AZIENDALI

Ciclo di vita dimensionale

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

4 Data Transformation Services

Thematica Software Technologies

I sistemi di reporting e i rapporti direzionali

Rassegna sui principi e sui sistemi di Data Warehousing

Organizzazione degli archivi

4 Introduzione al data warehousing

ESEMPIO: RITARDI & BIGLIETTI

WE FOR YOU. Gestione Documentale integrata con ERP

Estensioni del linguaggio SQL per interrogazioni OLAP

La soluzione Easy Net per l analisi visuale di dati georeferenziati

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Architetture per l analisi di dati

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione

DATABASE RELAZIONALI

Servizi finanziari (studio di caso)

PROGRAMMA DI CLASSE 5AI

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

SOSEBI PAPERMAP2 MODULO WEB MANUALE DELL UTENTE

Introduzione al Datamining. Francesco Passantino

ITI M. FARADAY Programmazione modulare a.s

AICA - Workshop 01/03/2011

Progettaz. e sviluppo Data Base

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL

Data Mining e Analisi dei Dati

OLAP On Line Analytical Processing

Sistemi Informativi e Sistemi ERP

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Le Basi di Dati. Le Basi di Dati

DBMS (Data Base Management System)

Laboratorio di Basi di Dati e Web

Lezione 1. Introduzione e Modellazione Concettuale

Biglietti e Ritardi: schema E/R

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Data Mining a.a

Introduzione. La misurazione dei sistemi di Data Warehouse. Definizioni & Modelli. Sommario. Data Warehousing. Introduzione. Luca Santillo (CFPS)

Transcript:

Lezione 7 Data Warehouse & OLAP

Che cos'è un Data Warehouse? Termine inventato da Bill Inmon alla fine degli anni 1980. È una base di dati contenente dati provenienti da uno o più basi di dati operative che sono stati Consolidati Integrati Aggregati Strutturati In modo da poter essere impiegati in un processo Analitico Decisionale

OLAP On-Line Analytical Processing Usa un modello dei dati multidimensionale Il concetto centrale è quello dell'ipercubo Ipercubo: Fatti numerici (misure) Categorizzati in dimensioni, che descrivono delle etichette Esempio: fatturato di un'azienda Le misure sono i numeri del fatturato Le dimensioni possono essere: il tempo: le etichette sono i trimestri, es. 2009Q1, 2009Q2, ecc. le aree geografiche: Europa, America, Asia, Africa, Oceania i settori: pannelli edilizia, pannelli nautica, tavolame nautica, ecc.

Un cubo OLAP 135 K area settore tempo 20092Q

Conceptual Modeling of Data Warehouses Modeling data warehouses: dimensions & measures Star schema: A fact table in the middle connected to a set of dimension tables Snowflake schema: A refinement of star schema where some dimensional hierarchy is normalized into a set of smaller dimension tables, forming a shape similar to snowflake Fact constellations: Multiple fact tables share dimension tables, viewed as a collection of stars, therefore called galaxy schema or fact constellation

Example of Star Schema time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Measures Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city state_or_province country

Example of Snowflake Schema time time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key item item_key item_name brand type supplier_key supplier supplier_key supplier_type branch branch_key branch_name branch_type Measures branch_key location_key units_sold dollars_sold avg_sales location location_key street city_key city city_key city state_or_province country

Example of Fact Constellation time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Measures Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city province_or_state country Shipping Fact Table time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type

Aggregazioni Ottenute modificando la granularità di specifiche dimensioni Es.: anni invece di trimestri, Italia/Estero invece di singoli paesi, ecc. Ciascuna aggregazione fornisce una visione differente dei dati Problema della selezione delle viste: Quali aggregazioni devono essere precalcolate? Minimizzare il tempo medio per rispondere alle interrogazioni Complessità: NP-difficile

DW vs. DB Data Warehouse Base di dati Modello dimensionale Assenza di normalizzazione Enfasi sulla facilità di interrogazione Statico Progettato per l'analsi dei dati Modello relazionale Normalizzazione dei dati Enfasi sulla consistenza dei dati Dinamico Progettato per l'elaborazione di transazioni (inserimento, modifica, cancellazione)

Architettura di un data warehouse Other sources Operational DBs Metadata Extract Transform Load Refresh Monitor & Integrator Data Warehouse OLAP Server Serve Analysis Query Reports Data mining Data Marts Data Sources Data Storage OLAP Engine Front-End Tools

Costruzione di un Warehouse Un data warehouse deve essere un sistema distinto dai DB Per popolare un data warehouse, normalmente i dati vengono estratti da un DB operativo Spesso, fino all'80% del lavoro di costruzione risiede nel processo ETL: extract, transform, load. Extract: individuazione dei dati e scrittura di interrogazioni per estrarli dai DB operativi; Transform: scrittura di programmi o script per filtrare, ripulire, e ricondurre i dati a convenzioni di codifica comuni; Load: caricamento dei dati trasformati nel warehouse

Estrazione Il primo passo è l'individuazione dei dati che servono Alcuni dati possono risiedere su DB operativi, altri vanno desunti da altre fonti (uffici di statistica, pubblicazioni, Web) I dati vengono estratti dai DB operativi e copiati in un'area di lavoro locale A volte si ha accesso diretto al DB Spesso, però, si ricevono solo degli archivi estratti per noi da qualcun altro Problema di interfacciarsi alle fonti dei dati

Trasformazione Dati provenienti da fonti diverse devono essere convertiti in un formato comune È necessario conoscere il significato dei dati nei DB operativi Lo stesso dato può avere nomi distinti in fonti diverse Date, codici, ecc., possono essere codificati in modi diversi Lo stesso attributo di una tabella può avere nomi distinti in sistemi diversi (es.: genere/sesso) e essere rappresentato in modo diverso (es.: {0, 1} piuttosto che {M, F}) Dati numerici possono essere dati usando unità di misure diverse (es.: kjoule/kcal) La stessa misura può essere stata ottenuta con metodi diversi

Data Mart Un data warehouse costruito a livello di una singola unità di azienda o ente (area, divisione, dipartimento, centro, ecc.) Solitamente meno impegnativo di un data warehouse Poche fonti dei dati, spesso un solo DB operativo Specifici per un particolare tema o un particolare studio Ambito più ristretto di un data warehouse Indipendente = dati provengono dai DB operativi Dipendente = dati sono estratti da un data warehouse

Rappresentare un ipercubo in una tabella Dato un ipercubo con D dimensioni... Si ricava una tabella con D + 1 colonne: Ogni misura contenuta nell'ipercubo diventa una riga La i-esima colonna conterrà l'etichetta della i-esima dimensione L'ultima colonna, la (D + 1)-esima, conterrà la misura.... e viceversa.

Rappresentazione di serie storiche Analisi delle tendenze Idea principale: mappare i dati nello spazio delle fasi Spazio delle fasi (Fisica): Spazio di tutti i possibili stati di un sistema Ciascun parametro o grado di libertà corrisponde a un asse Spazio delle fasi ricostruito per una serie storica univariata: Si considera un insieme finito di ritardi, per esempio 0, 1, 2,... Si associa a ciascuna dimensione un ritardo Etichette: dato con ritardo; Misura: dato senza ritardo Spazio delle fasi generalizzato: Usare statistiche della serie (p.es.: medie mobili) al posto dei ritardi

Esempio Serie: 7.92, 9.27, 15.02, 14.80, 9.33, 11.78, 9.60, 4.64, 5.34, 6.96 Ricostruiamo lo spazio delle fasi con due ritardi: 1 e 2 Ipercubo con dimensioni X(t 2) e X(t 1) e misura X(t) Otteniamo: X(t 2) = 7.92, X(t 1) = 9.27, X(t) = 15.02 X(t 2) = 9.27, X(t 1) = 15.02, X(t) = 14.80 X(t 2) = 15.02, X(t 1) = 14.80, X(t) = 9.33 X(t 2) = 14.80, X(t 1) = 9.33, X(t) = 11.78 ecc.

Data Warehouse Usage Three kinds of data warehouse applications Information processing supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs Analytical processing multidimensional analysis of data warehouse data supports basic OLAP operations, slice-dice, drilling, pivoting Data mining knowledge discovery from hidden patterns supports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using visualization tools