Data Warehousing (DW)



Documenti analoghi
Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Rassegna sui principi e sui sistemi di Data Warehousing

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Data warehouse Introduzione

SQL/OLAP. Estensioni OLAP in SQL

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale

Data warehousing con SQL Server

Architetture per l analisi di dati

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per la gestione di database: MySQL ( )

1. BASI DI DATI: GENERALITÀ

Data warehousing con SQL Server

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing

Cosa è un data warehouse?

Data warehousing con SQL Server

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Introduzione ai Sistemi di Gestione di Basi di Dati XML

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

La Metodologia adottata nel Corso

Data Warehousing e Data Mining

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2)

Introduzione alla teoria dei database relazionali. Come progettare un database

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione

Introduzione ad OLAP (On-Line Analytical Processing)

Data Mining a.a

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Dati relazionali e XML

Capitolo 13. Interrogare una base di dati

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

Estensioni del linguaggio SQL per interrogazioni OLAP

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

Database. Si ringrazia Marco Bertini per le slides

Data Warehousing: concetti base e metodologie

OLAP On Line Analytical Processing

Data warehousing con SQL Server

Linee di evoluzione dei Database

Data Warehouse Architettura e Progettazione

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Basi di Dati Complementi Esercitazione su Data Warehouse

Pivot Tables. vendite raggruppate per prodotto e zona vendite raggruppate per prodotto e mese

Strutture. Strutture e Unioni. Definizione di strutture (2) Definizione di strutture (1)

Organizzazione degli archivi

ESEMPI DI QUERY SQL. Esempi di Query SQL Michele Batocchi AS 2012/2013 Pagina 1 di 7

Utilizzando Microsoft Access. Si crea la tabella Anagrafica degli alunni,le Materie e i voti si mettono alcuni campi

DBMS (Data Base Management System)

B C I un altro punto di vista Introduzione

Introduzione alla Business Intelligence.

Compito Sistemi Informativi LA. Tempo concesso : 90 minuti 25 Marzo 03 Nome: Cognome: Matricola: Esercizio 1

Le Basi di Dati. Le Basi di Dati

DSCube. L analisi dei dati come strumento per i processi decisionali

Il linguaggio SQL: query innestate

Compito DA e BD. Tempo concesso: 90 minuti 12 giugno 03 Nome: Cognome: Matricola: Esercizio 1

Progettaz. e sviluppo Data Base

Uso delle variabili di alias. SQL slide aggiuntive. Interrogazione 25. Interrogazione 26

un insieme di processi per raccogliere e analizzare informazioni e dare risposta a esigenze di:

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Biglietti e Ritardi: schema E/R

SQL Server BI Development Studio

Marketing relazionale

Introduzione alla Business Intelligence

Ciclo di vita dimensionale

Volumi di riferimento

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

marca (1,n) (1,1) nome prezzou prodotto nome responsabile quantità nome datai dataf (0,n) vendite (0,n) (0,n) (0,n) tempo acquisti quantità (0,n)

02/mag/2012. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale

Data mining e rischi aziendali

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione

Esame Di Stato A.S. 2004/2005 Istituto Tecnico Commerciale Corso Sperimentale Progetto Mercurio Corso di Ordinamento - Programmatori

Lezione V. Aula Multimediale - sabato 29/03/2008

DATA WAREHOUSING CON JASPERSOFT BI SUITE

Dispensa di database Access

MODULO 5 Appunti ACCESS - Basi di dati

ITI M. FARADAY Programmazione modulare a.s

Nuova Interfaccia grafica. Al passo con i tempi. Interagisce e Informa

L architettura di un DBMS

Il linguaggio SQL: trigger. Versione elettronica: 04.7.SQL.trigger.pdf

Strutturazione logica dei dati: i file

Siti web centrati sui dati Architettura MVC-2: i JavaBeans

Corso di Basi di Dati e Conoscenza

Il Modello Relazionale

Convegno 6 giugno 2013 Federlazio Frosinone

SQL Server Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

Data warehouse in Oracle

Olga Scotti. Basi di Informatica. Excel

Sistemi di supporto alle decisioni

FIRESHOP.NET. Gestione del taglia e colore.

Interrogazioni complesse. SQL avanzato 1

Il linguaggio SQL: viste e tabelle derivate

Transcript:

Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale dati conoscenza utile all azienda 1

Esigenze che portano al DW Uso di dati a fini decisionali: grandi quantità di dati più basi di dati, tra loro eterogenee i dati devono essere raggruppati, classificati, riassunti Tecnologia ad hoc per OLAP (DBMS non sono sufficienti, studiati per OLTP) 2

Perché la tecnologia corrente non è sufficiente? sistemi eterogenei basse prestazioni DBMS non adeguati al supporto decisionale problemi di sicurezza 3

Soluzione Nuova base di dati data warehouse Nuovo sistema di gestione dati sistema di data warehousing 4

Il data warehouse DB1 DB2 Data warehouse DB4 DB3 5

Il data warehouse Collezione di dati orientata ai soggetti integrata correlata alla variabile tempo non-volatile usata principalmente per il supporto alle decisioni 6

Il data warehouse Orientata ai soggetti Considera il soggetto di interesse per l organizzazione e non è funzione dei processi organizzativi. 7

Il data warehouse Integrata I dati arrivano da fonti diverse diversi formati integrazione dati memorizzati in formati consistenti Esempio: sesso dell individuo può essere rappresentato come M e F o come 0 e 1 8

Il data warehouse Correlata alla variabile tempo Presenza di dati storici per eseguire confronti, previsioni e per individuare tendenze Esempio sistema bancario: dati relativi ai vecchi clienti per stabilire quanti clienti chiuderanno il conto nell anno seguente 9

Il data warehouse Non volatile Una volta che le informazioni sono inserite nel data warehouse, non possono essere modificate ma solo ricaricate NO Data warehouse DB SI 10

Gestione del data warehouse Data warehouse 11

Una prima architettura funzionale acquisizione memorizzazione accesso dw 12

Una seconda architettura funzionale data Dati operazionali Replicazione e pulizia Trasformazione Meta data Dati informativi Analisi e accesso 13

Schema di un DW E strutturato in sottoparti separate dette DATA MART per le quali risulta chiaro l obiettivo dell analisi. Ogni DATA MART ha uno schema concettuale che spesso si presenta con una struttura a STELLA. 14

Schema di un DATA MART Schema a stella: al centro l entità che rappresenta i fatti (i cui attributi rappresentano le misure dei fatti), alle estremità le entità che rappresentano le dimensioni dell analisi (i cui attributi rappresentano i livelli delle dimensioni). Prodotto Supermercato (1,1) Vendita (1,1) (1,1) (1,1) Promozione Tempo 15

Evoluzione degli strumenti per interrogare DW ciency effi Search Multi Dimensional Analysis Query/analysis Data mining User efficiency 16

Query e analisi Permettono di formulare interrogazioni senza scrivere un programma o conoscere SQL mettono a disposizione alcuni meccanismi di reporting: generazione di documenti (tabelle, grafici e altro) per presentare il risultato dell analisi 17

Formulazione delle query via interfaccia grafica Esempio di interfaccia dim1 (D1.a) dim2 (D2.b) fatti (F.c) fatti (F.d) valori presenti selezione valori presenti selezione group by group by OP1 Aggr OP2 Aggr. 18

Query SQL equivalente all interfaccia grafica SELECT D1.a, D2.b, OP1 Aggr (F.c), OP2 Aggr (F.d) FROM Fatti AS F, Dim1 AS D1, Dim2 AS D2 WHERE <predicati di join(f,d1)> AND <predicati di join(f,d2)> AND <selezioni> GROUP BY D1.a, D2.b ORDER BY D1.a, D2.b 19

Strumenti Multi Dimensional Analysis Permettono di creare viste multidimensionali su ordinarie tabelle bidimensionali. Esistono anche particolari DBMS detti multidimensionali. 20

MDA tools Esempio tempo vendite Dati di dettaglio (fatti) cliente prezzo magazzino prodotto Dimensioni (parametri analizzati) 21

MDA tool Esempio di query Quali sono i dati sulle vendite, classificati rispetto a: prodotto magazzino mese? 22

MDA tools Analisi rispetto a variabili multiple tempo magazzino prodotto In genere: efficienti fino a 10 variabili 23

MDA tools vendite prodotto mese magazzino quantità ricavi 1 vino febbraio A 120 150000 2 acqua febbraio B 34 34000 3 coca cola aprile A 245 380000 4 acqua maggio A 47 99000 5 acqua settembre C 55 71200......... magazzino C B A tempo feb apr mag set 120 9 10 42 vino 150 12 7 2 25 3 23 11 acqua coca cola prodotto 24

MDA tools Le strutture dati OLAP (MDA) si possono pensare come un CUBO DI RUBIK di dati, che gli utenti possono modificare in modi diversi per analizzare diversi scenari del tipo what-if 25

Data Cube nei sistemi Clausola: CUBE su una interrogazione SQL con il GROUP BY. Mese Magazzino Prodotto Quantità Gen A Vino 10 Feb A Vino 20 Mar A Acqua 30 Gen B Acqua 40 Feb B Vino 50 Mar B Vino 60 Gen C Vino 70 Feb C Acqua 80 Mar C Acqua 90 SELECT Mese, Prodotto, Sum(Quantità) FROM T GROUP BY CUBE (Mese, Prodotto) 26

Data Cube nei sistemi Tabella risultato della query GROUP BY CUBE del precedente lucido. Mese Prodotto sum(qta) Gen Vino 80 Feb Vino 70 Mar Vino 60 Gen Acqua 40 Feb Acqua 80 Mar Acqua 120 Gen ALL 120 Feb ALL 150 Mar ALL 180 ALL Vino 210 ALL Acqua 240 ALL ALL 450 27

MDA tools Due tipi di operazioni: 1. Slice and dice: si parte da un particolare aspetto e si naviga nella struttura multidimensionale, selezionando celle della struttura (cubo) 2. Drill / Roll drill-down: da informazioni più aggregate a informazioni meno aggregate (aggiunta di una dimensione o di un livello meno generale di una dimensione) roll-up: da informazioni meno aggregate a informazioni più aggregate (togliendo una dimensione o passando a un livello più generale di una dimensione) 28

Data Mining Fasi del processo di data mining comprensione del dominio; preparazione del set di dati; scoperta dei pattern (regole di associazione); valutazione dei pattern; utilizzo dei risultati. 29

Data Mining Regole di associazione: si applicano ad una tabella relazionale partizionata tramite una clausola di raggruppamento (esempio della basket analysis: transazioni di acquisto). Nella basket analysis una regola descrive situazioni in cui la presenza di una merce in una transazione è associata alla presenza di un altra merce con elevata probabilità. 30

Data Mining Regole di associazione premessa conseguenza oppure corpo testa Esempio: giacca camicia 31

Data Mining Data un osservazione: insieme di tuple si dice SUPPORTO di una regola: la probabilità che siano presenti nell osservazione sia la testa che il corpo della regola; si dice CONFIDENZA di una regola: la probabilità che in una osservazione dove sia presente il corpo sia presente anche la testa. 32

Data Mining CodTrans Data Oggetto Quantità Prezzo 1 17/12/03 Pantaloni-sci 1 140 1 17/12/03 Scarponi 1 180 2 18/12/03 Maglietta 2 25 2 18/12/03 Giacca 2 300 2 18/12/03 Stivali 1 70 3 18/12/03 Giacca 1 300 4 20/12/03 Giacca 1 320 4 20/12/03 maglietta 2 27 Trovare SUPPORTO e CONFIDENZA delle principali regole associative presenti in questa tabella dei fatti. 33