Data warehouse. Progettazione di un data warehouse

Documenti analoghi
Datawarehouse. Proge.azione logica

Lezione 5. Alimentazione dei Data Warehouses Riconciliazione e Integrazione di Schemi di Dati per il Data Warehousing

Sviluppo di un Data Warehouse

Il Dimensional Fact Model

INTRODUZIONE ALLA PROGETTAZIONE. Patrizio Dazzi a.a

Le organizzazioni da sempre hanno archiviato i da7 di business ma l'incompleto sfru<amento del loro potenziale ha sempre rappresentato un problema.

Il modello multidimensionale. Per le slides si ringrazia il Prof. Stefano Rizzi ( e il Dott.

Progettazione del livello riconciliato

Indice. Prefazione. Capitolo 1 Introduzione al data warehousing 1

Corso di Laurea in Informatica Basi di Dati a.a

Corso di Laurea in Informatica Basi di Dati a.a

Progettazione e pianificazione

Progettazione concettuale di una base di dati

LA PROGETTAZIONE CONCETTUALE

INTEGRAZIONE DI SCHEMI E/R

Prima di iniziare. Diamo qualche definizione :

Datawarehouse. Proge.azione logica

Basi di Dati Relazionali

Progettazione di Basi di Dati

IL MODELLO CONCETTUALE ENITÀ-RELAZIONE (ER) (CAPITOLO 5 DELLA VERSIONE ITALIANA)

2 - Metodologie e modelli per la progettazione di BD. Informatica II Basi di Dati (08/09) Parte 1. Introduzione alla progettazione

Il Modello Concettuale Enità-Relazione (ER)

Modello Entità - Relazione. Basi di dati. Elena Baralis 2007 Politecnico di Torino D B M G D B M G2 D B M G4 D B M G6. Progettazione di basi di dati

3.1. CorsodiElementidiBasididati Il modello Entita Relazione (72) vendita ordine studente. Impiegato. Dipartimento. città. Città.

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Corso di Basi di Dati

Il modello Entità-Relazioni (entity-relationship)

Metodologie e Modelli di Progetto

Tecniche per l Integrazionel di Dati Eterogenei

Sistemi informativi D B M G

D B M G D B M G 2. Sistemi informativi. Progettazione di basi di dati

Progettazione Concettuale/1

Cardinalità degli attributi

DATABASE - MODELLO E-R ENTITÀ E RELAZIONI TRATTO DA CAMAGNI-NIKOLASSY, CORSO DI INFORMATICA, VOL 2, HOEPLI. Informatica

Entità. Relazioni. Cardinalità delle relazioni. Ogni entità ha un nome che la identifica

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

Ma: progettazione dei dati. progettazione delle applicazioni. Progettazione di basi di dati

Vincoli. In ogni schema E/R sono presenti dei vincoli Alcuni sono impliciti, in quanto dipendono dalla semantica stessa dei costrutti del modello:

Le Basi di dati: progettazione concettuale

SISTEMI INFORMATIVI TERRITORIALI DATABASES -LEZIONE 3

Modellazione concettuale

La progettazione concettuale

Modello Entità-Relazione

D B M G D B M G 2. Basi di dati. Progettazione di basi di dati. Elena Baralis 2007 Politecnico di Torino 1. Modello Entità-Relazione

Modello Entità-Relazione

Basi di dati attive. Una base di dati è ATTIVA quando consente la definizione e la gestione di regole di produzione (regole attive o trigger).

Unità A2. Progettazione concettuale. Obiettivi. Astrazione. Astrazione per aggregazione

I database. Introduzione alla teoria delle basi di dati

Principi di Progettazione del Software a.a

SISTEMI INFORMATIVI DIREZIONALI BUSINESS INTELLIGENCE

Basi di dati (Sistemi Informativi)

Progettare una basi di dati vuole dire progettare la struttura dei dati e le applicazioni

Il Modello Concettuale Enità-Relazione (ER)

Lezione 11. database: modello entityrelationship. Proff.Valle Folgieri. Lez11 Trattamento dati. Database: modello entity-relationship 1

La progettazione concettuale

Progettazione di un DB

Metodologie e modelli di progetto

Architetture per l analisi dei dati

Progettazione logica relazionale (1/2) Progettazione logica. Progettazione logica relazionale (2/2) Introduzione. Progettazione logica

Modello Entità-Relazione (E-R)

Database. Cos è un database? Intro Tipi di entità Mapping ER/EER à Relazionale

Sistemi Informativi Avanzati Anno Accademico 2013/2014 Prof. Domenico Beneventano. Archi multipli

Progettazione concettuale usando il modello Entità-Relazione (ER)

Progettazione concettuale

LA PROGETTAZIONE CONCETTUALE. Prima parte

Prefazione. Parte Prima Basi di dati relazionali: modello e linguaggi 15

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

UML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13

! Un arco multiplo corrisponde ad un associazione molti-a-molti: il padre (libro) non determina funzionalmente il figlio (autore)

PROGETTO LOGICO DA SCHEMI E/R. progetto logico da E/R 1

Introduzione alla progettazione Metodologie e modelli per la progettazione di basi di dati Modello Entità-Associazione

Data warehouse Introduzione

Tecnologie dei sistemi informatici: Basi di Dati e Reti. Lezione 3. Parte I Il modello ERA: introduzione e concetti base

Progettazione logica D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2012/2013

Progetto concettuale delle basi di dati

Modello Entità-Relazione (E-R)

La progettazione logica

Data warehouse Introduzione

Informatica. Dipartimento di Economia. Ing. Cristiano Gregnanin. 20 ottobre Corso di laurea in Economia

Progettare una base di dati. Progettare una base di dati

METODOLOGIE DI PROGETTAZIONE DI BD E DI DW. Gli eventi (fenomeni) di interesse, detti fatti. La granularità dei fatti da analizzare.

DOCENTE PROF. ALBERTO BELUSSI. Anno accademico 2010/11

Progettazione concettuale A. Ferrari

Sistemi Informativi Avanzati Anno Accademico 2012/2013 Prof. Domenico Beneventano. Archi multipli

Obiettivi della progettazione logica. Fasi della progettazione logica. Ristrutturazione dello schema ER. Parte VI. Progettazione logica

Lezione 3. Parte II Il modello ERA: Definizioni, Concetti, Esempi

SISTEMI INFORMATIVI E DATABASE

Corso di Informatica

Tecnologie informatiche multimediali

Progettazione Concettuale. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

MODELLI DEI DATI. Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia

Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia. Università degli Studi di Salerno

La Progettazione Logica

IL MODELLO ER. Modello ER. ì En#ty-Rela#onship (ER) ì Diagrammi ER. ì Unified Modeling Language (UML)

Progettazione logica relazionale. Basi di dati. Elena Baralis 2007 Politecnico di Torino D B M G D B M G3 D B M G6 D B M G5

Basi di dati Modelli e linguaggi di interrogazione

Informatica Industriale Modello funzionale: Informazione Modello Entità-Relazione

Basi di dati. Progettazione di basi di dati: Metodologie e modelli

Lezione 3. Modellazione dei Dati mediante il Modello Entità Associazione (ER)

Transcript:

Data warehouse Progettazione di un data warehouse

Architettura di un dw 2

Componenti di un dw Due funzioni principali: 1. Prendere le informazioni dai sistemi operazionali, pulirle e metterle dentro il dw 2. Prendere le informazioni dal dw e presentarle all utente 3 Federica Cena-

4

Sviluppo di un dw 1. Analisi e riconciliazione delle fonti à schema riconciliato + requisiti (obiettivi strategici) 2. Analisi dei requisiti 3. Progettazione concettuale à schema di fatto 4. Validazione dello schema concettuale 5. Progettazione logica à schema logico 6. (Progettazione fisica à procedure di indicizzazione e di memorizzazione) 5 Federica Cena-

Data warehouse Analisi e riconciliazione delle fonti (*Prof. Giolito)

Analisi e riconciliazione 1. Analisi e riconciliazione delle fonti schema riconciliato + requisiti (obiettivi strategici) 1. Premesse: non tutti i dati che abbiamo ci interessano 2. Alcuni dati sono disallienati 3. Per ogni fonte disponibie: 1. Passo 1: modello E-R (schema locale) 2. Passo 2: portare allo schema riconciliato (solo ciò che serve al db) 2 Federica Cena-

Analisi e riconciliazione 1. Possibili relazioni tra R1 e R2 1. Identità 2. Equivalenza 3. Comparabilità 4. Incompatibilità analisi dei possibili conflitti 3 Federica Cena-

Analisi e riconciliazione 1. Possibili conflitti tra schemi 1. Eterogeneità 2. Conflitti 1. Di nome 1. Omonimie 2. Sinonime 2. Semantici 3. strutturali 4 Federica Cena-

Processo di riconciliazione Euristiche: 1. Riconosco la diversità 2. Opero una fusione schema riconciliato 1. Completezza 2. Minimalità 3. leggibilità 5 Federica Cena-

FASE 1: Analisi e riconciliazione delle fonti dei dati La fase è particolarmente critica se le fonti presentano un alta eterogeneità. Schema riconciliato Schema esportato R1 Modello ER Schema esportato R2 Schema locale 1 Modello locale Schema locale 2 Fonte dati 1 Fonte dati 2 2

Possibili relazioni tra due rappresentazioni R1 e R2 1. Identità: R1 coincide con R2, è il caso fortunato. 2. Equivalenza: Se le le istanze di R1 e R2 possono essere messe in corrispondenza uno a uno. Esempio: Edito da Libro (1,1) ISBN Titolo Libro ISBN Titolo Casa Ed. (1,n) Casa Editrice Nome Indirizzo Indirizzo Casa Ed. 3

3. Comparabilità: Schemi non in contrasto, ma con punti di vista diversi, Esempio: Dipendente assegnato a Dipartimento Dipendente (0,1) CF Nome Dipendente (0,1) CF Nome Lavora a Assegnato (1,n) Progetto (1,1) Cod Descrizione (1,n) Dipartimento Nome Ind. Appartiene (1,n) Dipartimento Nome Ind. 4

4. Incompatibilità, quando R1 e R2 sono in contrasto Esempio: personale tecnico e amministrativo dell Università CF CF Dipendente (1,1) Nome Dipendente (0,n) Nome Afferenza Afferenza (1,n) Dipartimento Nome Ind. (0,n) Dipartimento Nome Ind. Primo caso tipico del personale tecnico di laboratorio. Secondo caso modella anche il personale dell Amministrazione Centrale e amministrativo. 5

Analisi comparativa per scoprire le relazioni tra R1 e R2 svolta in stretta collaborazione con gli esperti del dominio. L aspetto critico consiste nell individuare i possibili conflitti: 1. Eterogeneità dei formalismi con diverso potere espressivo negli schemi locali (relazionale, Object Oriented, formati di file, ER, UML, ) 2. Conflitti di nome: Omonimie Nome Dipartimento (0,n) Ind. Edificio (0,n) N Ind. Possiede Contiene (1,1) Attrezzatura Inventario Tipo (1,1) Attrezzatura Inventario Tipo scientifica mobilio 6

Conflitti di nome: Sinonimie Nome Cliente (0,n) Ind. Detiene Acquirente (0,n) Emette Nome Ind. (1,1) Credito Codice Tipo (1,1) Ordine N Data E opportuno istituire un dizionario dati che annoti tutte le omonimie e sinonimie riscontrate comparando i vari schemi. 7

3. Conflitti semantici, quando si modella la stessa realtà con diverso livello di astrazione (1,n) Edificio N Ind. Edificio (1,n) Contiene (1,1) Piano Appartamento (1,1) Possiede (1,n) Proprietario N Ind. N Descrizione CF Nome (1,1) Piano N (1,n) Contiene (1,1) N Appartamento Descrizione (1,1) Possiede (1,n) CF Proprietario Nome 8

Conflitti strutturali Conflitti di tipo, stesso concetto modellato con diversi costrutti. Es.: Piano nella diapositiva precedente. Conflitti di dipendenza, due o più concetti associati con cardinalità diverse. Es.: uomo (sposa n:m) donna con possibilità di storicizzare, uomo (sposa 1:1) donna. Conflitti di chiave, identificatori diversi. Es.: matricola in uno schema, CF in un altro Conflitti di comportamento, politiche di cancellazione/modifica diverse nei vari schemi. Es.: Cancellazione studente nella base dati borsisti EDISU se reddito superiore di una data soglia, mentre nella base dati universitaria viene registrata la non assegnazione. L individuazione delle correlazioni tra R1 e R2 e dei conflitti richiede una approfondita conoscenza della semantica, per questo motivo la documentazione degli schemi operazionali deve essere accurata e formale. 9

2). Riconciliazione e integrazione degli schemi Mapping tra gli elementi degli schemi sorgenti per arrivare allo schema riconciliato. Schema R1 Schema R2 Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Parola chiave Testo Area Argomento Testo Area 102

Allineamento degli schemi Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Parola chiave Testo Area Argomento Testo Area Argomento sinonimo di Parola chiave ; Editore conflitto di tipo 11

Allineamento degli schemi Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Argomento Testo Area Argomento Testo Area Argomento sinonimo di Parola chiave, scegliamo Argomento ; Editore conflitto di tipo 12

Fusione Editore Nome Ind Pubblicazione Cod Titolo Libro Cod Titolo Argomento Testo Area La fusione spesso introduce ridondanze, Es.: le entità Pubblicazione e Libro che non sono esattamente sovrapponibili, bensì una entità è sotto entità dell altra. 13

Fusione Editore Nome Ind Pubblicazione Cod Titolo Argomento Testo Area Libro Ancora ridondanze: le associazioni superflue 14

Fusione Schema integrato o Schema Globale (GAV: Globel As View). Editore Nome Ind Pubblicazione Cod Titolo Argomento Testo Area Libro In generale ad ogni concetto dello schema globale corrisponde una vista sugli schemi sorgente Proprietà desiderate dello schema globale: Completezza, dopo la sovrapposizione occorre scoprire tutte le relazioni tra le varie entità (associazioni e gerarchie) Minimalità, cancellazione delle eventuali ridondanze, come da esempio. Leggibilità, nel contesto decisionale dell organizzazione. 15

Lezione 2: Data warehouse Modello concettuale dei dati Modello multimensionale dei dati p Il modello multidimensionale viene adottato come paradigma di rappresentazione dei dati nel DW p Partiamo dalle interrogazioni la cui soddisfazione esso si presta maggiormente: 2 1

Modello multidimensionale p Che incassi sono stati registrati l anno scorso per ciascuna regione e ciascuna categoria di prodotto? p Che correlazione esiste tra l andamento dei titoli azionari dei produttori di PC e i profitti trimestrali lungo gli ultimi 5 anni? p Quali sono gli ordini che massimizzano gli incassi? p Quale di due nuove terapie comportera una diminuzione della durata media di un ricovero? Federica Cena- 3 Modello multidimensionale p Informazioni riassuntive, con la possibilità di dettagliare i riassunti p Analisi delle informazioni riassuntive in base a componenti organizzative come aree e dipartimenti p Possibilità di slice (affettare) and dice (tagliare a dadini) delle informazioni p Possibilità di vedere le informazioni nel tempo p Vedere le informazioni sia in forma tabulare che grafica Federica Cena- 4 2

Modello Multidimensionale I dati vengono analizzati per identificare tendenze e, quindi, facilitare il processo decisionale n Quale e il mese con le maggiori vendite? n Quali sono stati i primi cinque prodotti venduti a Pisa? Interessano non solo i dati ma anche le loro aggregazioni (media, il minimo, massimo, somma, etc) 5 Modello multidimensionale p Esprimere interrogazioni di questa natura tramite linguaggi come SQL risulta alquanto complesso e la loro esecuzione su bd operazionali porterebbe a tempi di risposta difficilmente accettabili p il Modello multidimensionale nasce dalla constatazione che gli oggetti che influenzano il processo decisionale sono FATTI del mondo aziendale, quali ad esempio le vendite, le spedizioni, i ricoveri, gli interventi chirurgici. Federica Cena 6 3

Modello multidimensionale p Le occorrenze del fatto corrispondono a eventi accaduti: ciascuna vendita effettuata è un evento p Per ciascun fatto di interesse interessano i valori di misure che descrivono quantitativamente gli eventi: l incasso di una vendita, la quantità spedita, il costo di un ricovero. p Gli eventi possono essere collocati su uno spazio n-dimensionale i cui assi definiscono le dimensioni di analisi Federica Cena 7 Modello multidimensionale - Semplice da capire - Non ambiguo - Riflette il modo in cui le persone pensano e prendono decisioni Federica Cena 8 4

Modello dei dati multidimensionale p Fatto: concetto di interesse per il processo decisionale (ad esempio, vendite) p Misure: proprietà numerica di un fatto, descrive un aspetto quantitativo (quantità venduta, incasso) p Dimensioni: proprietà con un dominio finito di un fatto, descrive una coordinata di analisi (luogo, prodotto) p Un fatto è analizzato attraverso tante dimensioni. Federica Cena 9 Modello multidimensionale Fatti: behavioural, dati comportamentali, derivano da interazione utente con il sistema, dinamici, cambiano Dimensioni: circumstances (attributi), cambiano meno 10 Federica Cena- 5

Esempio di analisi p Possibili dimensioni n Prodotto (tipo di prodotto) n Tempo (mese, bimestre, anno) n Cliente (dettaglio, grossista, diretto) n Responsabilità (punto vendita, rivenditore) p Lo schema multidimensionale favorisce la multidimensionalità del ragionamento n Che cosa? chi? Quanto? Come? Dove? 11 12 6

Cubo p incentrato su un fatto di interesse per il processo decisionale. p Rappresenta un insieme di eventi descritti quantitativamente da misure numeriche p Ogni asse del cubo rappresenta una possibile dimensione di analisi p ciascuna dimensione può essere vista a piu livelli di dettaglio, individuata da attributi, eventualmente strutturati in gerararchie 13 14 7

Cubo Assi: tempo, punto vendita, prodotto Misura: quantità di venduto Ogni elemento del cubo (minicubo) contiene i valori di vendita per un particolare cliente e prodotto in un tempo preciso (t0) Federica Cena- 15 Caratteristiche dei DW Federica Cena 16 8

Datawarehouse: obiettivi Federica Cena 17 p Rappresentazione a matrice Federica Cena 18 9

Esempio di analisi 20 10

Modello multidimensionale p Le dimensioni possono essere più di tre, ma non è intuitivo immaginarlo p Anche le misure possono essere più di una (nella cella ci saranno più valori) 21 Federica Cena 22 11

Gerarchia delle dimensioni p Ogni dimensione può essere strutturata in una gerarchia di variabili che rappresentano diversi livelli di aggregazione p esempio dimensione punto vendita 23 Gerarchia delle dimensioni esempio dimensione tempo 24 12

Gerarchia delle dimensioni esempio dimensione prodotto 25 26 13

Data warehouse Modellazione Concettuale Modello concettuale Modello semplificato rispetto a base di dati - La struttura è predicibile (è sempre la stessa): tab dei fatti al centro con le dimensioni collegate - Le relazioni sono sempre 1:m dove : - La dimensione è la parte 1 della relazione e la tabella dei fatti è la parte M - Gerarchia: la dimensione più vicina ai fatti è la parte Many, l entità più esterna è la parte 1 Non serve specificare la cardinalità minima - La dimensione 1 è sempre facoltativa - La dimensione m è sempre obbligatoria Non ci sono sovracclassi 28 14

Modello concettuale: 2 tipi p A stella (star) p A fiocco di neve (snowflakes) Federica Cena 29 Modello concettuale a stella Punto vendita m:n prodotto vendita tempo m:n 30 15

Modello concettuale a fiocco di neve m:1 region e Prodotto m:n m:1 provin cia citta vendita tempo m:n 31 Modello concettuale: modalità di rappresentazione p Si puo disegnare con n Schema E-R (come data base) n DOT model (rappresenta i fatti come punti) 32 16

Modello concettuale (Dot Model) Dimensione Operatori Clienti Provincia Regione Regione Provincia_dest Professio ne Categoria Localizz_dest Viaggi Sistemazione Mezzi Periodo Progettazione concettuale di un DW Passi 1. Decidere i fatti 2. Decidere le unità di misura 3. Decidere la granularità di analisi: dimensioni 4. Decidere attributi delle dimensioni 5. Decidere quali aggregazioni e partizionamenti (gerar 6. Decisioni riguardo il tempo 7. Costruzione del modello concettuale, scegliendo il Formalismo (Dot Model, ER) 34 17