Datawarehouse. Proge.azione logica

Documenti analoghi
Datawarehouse. Proge.azione logica

Data warehouse. Progettazione di un data warehouse

Lezione 5. Alimentazione dei Data Warehouses Riconciliazione e Integrazione di Schemi di Dati per il Data Warehousing

Sviluppo di un Data Warehouse

Indice. Prefazione. Capitolo 1 Introduzione al data warehousing 1

Progettazione del livello riconciliato

Il Dimensional Fact Model

INTRODUZIONE ALLA PROGETTAZIONE. Patrizio Dazzi a.a

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Star Schema. Progettazione Logica ROLAP 30/05/2014

Tecniche per l Integrazionel di Dati Eterogenei

INTEGRAZIONE DI SCHEMI E/R

IL MODELLO CONCETTUALE ENITÀ-RELAZIONE (ER) (CAPITOLO 5 DELLA VERSIONE ITALIANA)

Il Modello Concettuale Enità-Relazione (ER)

Database. Cos è un database? Intro Tipi di entità Mapping ER/EER à Relazionale

Progettazione di Basi di Dati

Definizione e calcolo delle misure

Corso di Laurea in Informatica Basi di Dati a.a

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

Modello Entità-Relazione

Modello Entità-Relazione

BASE DI DATI. (accezione specifica) collezione di dati gestita da un DBMS. Università degli Studi di Cassino

Corso di Basi di Dati

LA PROGETTAZIONE CONCETTUALE

Il modello Entità-Relazioni (entity-relationship)

2 - Metodologie e modelli per la progettazione di BD. Informatica II Basi di Dati (08/09) Parte 1. Introduzione alla progettazione

Modello Entità - Relazione. Basi di dati. Elena Baralis 2007 Politecnico di Torino D B M G D B M G2 D B M G4 D B M G6. Progettazione di basi di dati

Ma: progettazione dei dati. progettazione delle applicazioni. Progettazione di basi di dati

D B M G D B M G 2. Sistemi informativi. Progettazione di basi di dati

Sistemi Informativi Avanzati Anno Accademico 2013/2014 Prof. Domenico Beneventano. Archi multipli

Il Modello Concettuale Enità-Relazione (ER)

Sommario. Introduzione... 13

Sistemi informativi D B M G

Progettazione logica relazionale (1/2) Progettazione logica. Progettazione logica relazionale (2/2) Introduzione. Progettazione logica

Progetto concettuale delle basi di dati

Sistemi Informativi Avanzati Anno Accademico 2012/2013 Prof. Domenico Beneventano. Archi multipli

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

Basi di Dati Relazionali

Progettazione di un DB

BASE DI DATI. collezione di dati, utilizzati per rappresentare le. (accezione specifica) collezione di dati gestita da un DBMS. (accezione generica)

Metodologie e Modelli di Progetto

! Un arco multiplo corrisponde ad un associazione molti-a-molti: il padre (libro) non determina funzionalmente il figlio (autore)

Progettazione concettuale usando il modello Entità-Relazione (ER)

Progettazione Concettuale/1

Progettazione logica: criteri di ottimizzazione

Introduzione alla progettazione Metodologie e modelli per la progettazione di basi di dati Modello Entità-Associazione

IL MODELLO ER. Modello ER. ì En#ty-Rela#onship (ER) ì Diagrammi ER. ì Unified Modeling Language (UML)

D B M G D B M G 2. Basi di dati. Progettazione di basi di dati. Elena Baralis 2007 Politecnico di Torino 1. Modello Entità-Relazione

SISTEMI INFORMATIVI TERRITORIALI DATABASES -LEZIONE 3

TECNOLOGIE DELL INFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE

3.1. CorsodiElementidiBasididati Il modello Entita Relazione (72) vendita ordine studente. Impiegato. Dipartimento. città. Città.

La progettazione concettuale

Progettazione Logica. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

Sistemi Informativi Avanzati

LA PROGETTAZIONE LOGICA

I database. Introduzione alla teoria delle basi di dati

Prefazione. Parte Prima Basi di dati relazionali: modello e linguaggi 15

Lezione basi di dati 26 gennaio NORMALIZZAZIONE

Progettazione di Basi di Dati

Progettazione di una base di dati. Il Modello Entity-Relationship (E-R) Requisiti della base di dati

Principi di Progettazione del Software a.a

Progettazione logica relazionale (1/2)

Progettazione logica relazionale. Basi di dati. Elena Baralis 2007 Politecnico di Torino D B M G D B M G3 D B M G6 D B M G5

Progettazione del Data Warehouse

Obiettivi della progettazione logica. Fasi della progettazione logica. Ristrutturazione dello schema ER. Parte VI. Progettazione logica

Basi di dati Modelli e linguaggi di interrogazione

Progettazione concettuale di una base di dati

Sistemi Informativi Avanzati

Corso di Laurea in Informatica Basi di Dati a.a

Progettazione e pianificazione

Progettazione logica: criteri di ottimizzazione

Progettazione concettuale usando il modello Entità-Relazione (ER) II parte

SISTEMI INFORMATIVI E DATABASE

Gestione delle informazioni. Tot. h 10. Base di Dati. Tot. h 56. Grafica in C# - Laboratorio- Tot. h 40. Dipartimento Informatica Materia Informatica

Progettazione di basi di dati D B M G

Basi di dati. Progettazione di basi di dati: Metodologie e modelli

Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw -Hill, Progettazione concettuale

Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill, Progettazione concettuale

Basi di dati (Sistemi Informativi)

Database (Base di dati)

La progettazione concettuale

Le basi di dati. Definizione 1. Lezione 2. Bisogna garantire. Definizione 2 DBMS. Differenza

Data Warehousing. Esercitazione 2

Informatica Industriale Modello funzionale: Informazione Modello Entità-Relazione

Metodologie e modelli di progetto

Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill, La normalizzazione

Progettazione Concettuale. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

Il Sistema Integrato dei Istat

PIL Percorsi di Inserimento Lavorativo

Modello Entità-Relazione (E-R)

IL MODELLO ENTITÀ-RELAZIONE

SQL e linguaggi di programmazione. Cursori. Cursori. L interazione con l ambiente SQL può avvenire in 3 modi:

Progettazione concettuale

Corso di Basi di Dati

Sistemi Informativi Avanzati Anno Accademico 2011/2012 Prof. Domenico Beneventano Progettazione del Data Warehouse

Un arco multiplo corrisponde ad un associazione molti-a-molti: il padre (libro) non determina funzionalmente il figlio (autore)

Compito Sistemi Informativi. Tempo concesso : 90 minuti 19 settembre 2012 Nome: Cognome: Matricola: Crediti: [6] [9]

Forme normali. Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill. La normalizzazione. Normalizzazione. Una relazione con anomalie.

Transcript:

Datawarehouse Proge.azione logica

1) Modello a stella implementato 3

Semplici join permettono di ricostruire i fatti. Le tabelle dimensione sono generalmente denormalizzate: contengono le dipendenze funzionali delle gerarchie. La denormalizzazione sveltisce le interrogazioni. Generalmente le gerarchie non sono soggette a modifiche, quindi la denormalizzazione è ininfluente sulle modifiche. La denormalizzazione causa ridondanza, tuttavia di norma una dimensione ha un occupazione contenuta della memoria rispetto alla fact table. La sparsità non è un problema: nella fact table vengono memorizzate solo le combinazioni di chiavi corrispondenti ad informazioni esistenti. 4

2) Modello a snowflake 4

Modello a sowflakes implementato 5

Schema snowflake di Vendite ChiaveNegozio ChiaveData Data Mese Trimestre Anno Giorno Settimana Vacanza VENDITA ChiaveNegozio ChiaveData ChiaveProdotto QuantitàVenduta Incasso PrezzoUnitario NumeroClienti Negozio ChiaveCittà Responsabile Distretto ChiaveProdotto ChiaveCittà CittàNegozio RegioneNegozio StatoNegozio ChiaveCategoria Categoria Reparto ChiaveTipo Tipo ChiaveCategoria GruppoMarketing Prodotto ChiaveTipo Marca CittàMarca Dieta* 6

Schema snowflake Lo schema snowflake attenua la denormalizzazione delle dimensioni, riducendo lo spazio delle tabelle delle dimensioni a scapito del costo dei join. La parziale normalizzazione articola meglio le dimensioni che possono essere usate con maggior facilità da più fact table. NORMALIZZATO 1) no ridondanze, occupa meno spazio in memoria 2) molti join, quesry più complesse e più lente 3) possibile aggiornamento a catena 5

Warehouse database Stru.ura conce.uale: Schema a stella o a fiocco di neve Stars denormalizzato Simple Flat (no gerarchia) snowflakes normalizzato More complex Gerarchico (naturale modo di pensare dei manager) (+) piu veloci le query ( ) piu spazio in memoria (-) piu lente le query (+) aggiornamenti a catena (+) occupa meno spazio Federica Cena- 6

Data normalisacon ObieEvo: 1. Eliminare le duplicazioni non necessarie e incontrollate di dac (ridondanze) 2. Eliminare le dipendenze funzionali tra gli a.ribuc Federica Cena- 7

Data normalisacon Dipendenze funzionali X! y il valore di y dipende da x ci.a! regione il valore di regione dipende da ci.a cliente(ci(a, regione) Ogni volta che due clienc vivono nella stesso ci.à, allora vivono anche la stessa regione ci.a[torino]=regione[piemonte] Federica Cena- 8

Warehouse database 1. Tabella al centro dei fae, sui cui vengono eseguite tu.e le query Relazione 1:m con le altre dimensioni (parte m: tabella dei fae, parte 1 dimensione) 2. Time dimension obbligatori 3. Una misura singola non interessa: Le misure devono essere sommabili, solo su alcune dimensioni ha senso:costo ha senso su prodoe, ma non su tempo (a.ribuc semisommab) 4. Aggiungere dac ai precedenc (accodarli) non sovrascriverli Federica Cena- 9

Modello logico Prodo.o (id_prodo.o, nome) Punto_vendita (id_punto, ci.à, regione) Tempo (id_tempo,mese, anno) Vendite (id_prodo.o, id_punto, id_tempo, quan3tà) Federica Cena 10

Data warehouse Progettazione di un data warehouse

Architettura di un dw 2

Componenti di un dw Due funzioni principali: 1. Prendere le informazioni dai sistemi operazionali, pulirle e metterle dentro il dw 2. Prendere le informazioni dal dw e presentarle all utente 3 Federica Cena-

4

Sviluppo di un dw 1. Analisi e riconciliazione delle fonti à schema riconciliato + requisiti (obiettivi strategici) 2. Analisi dei requisiti 3. Progettazione concettuale à schema di fatto 4. Validazione dello schema concettuale 5. Progettazione logica à schema logico 6. (Progettazione fisica à procedure di indicizzazione e di memorizzazione) 5 Federica Cena-

Data warehouse Analisi e riconciliazione delle fonti (*Prof. Giolito)

Analisi e riconciliazione 1. Analisi e riconciliazione delle fonti schema riconciliato + requisiti (obiettivi strategici) 1. Premesse: non tutti i dati che abbiamo ci interessano 2. Alcuni dati sono disallienati 3. Per ogni fonte disponibie: 1. Passo 1: modello E-R (schema locale) 2. Passo 2: portare allo schema riconciliato (solo ciò che serve al db) 2 Federica Cena-

Analisi e riconciliazione 1. Possibili relazioni tra R1 e R2 1. Identità 2. Equivalenza 3. Comparabilità 4. Incompatibilità analisi dei possibili conflitti 3 Federica Cena-

Analisi e riconciliazione 1. Possibili conflitti tra schemi 1. Eterogeneità 2. Conflitti 1. Di nome 1. Omonimie 2. Sinonime 2. Semantici 3. strutturali 4 Federica Cena-

Processo di riconciliazione Euristiche: 1. Riconosco la diversità 2. Opero una fusione schema riconciliato 1. Completezza 2. Minimalità 3. leggibilità 5 Federica Cena-

FASE 1: Analisi e riconciliazione delle fonti dei dati La fase è particolarmente critica se le fonti presentano un alta eterogeneità. Schema riconciliato Schema esportato R1 Modello ER Schema esportato R2 Schema locale 1 Modello locale Schema locale 2 Fonte dati 1 Fonte dati 2 2

Possibili relazioni tra due rappresentazioni R1 e R2 1. Identità: R1 coincide con R2, è il caso fortunato. 2. Equivalenza: Se le le istanze di R1 e R2 possono essere messe in corrispondenza uno a uno. Esempio: Edito da Libro (1,1) ISBN Titolo Libro ISBN Titolo Casa Ed. (1,n) Casa Editrice Nome Indirizzo Indirizzo Casa Ed. 3

3. Comparabilità: Schemi non in contrasto, ma con punti di vista diversi, Esempio: Dipendente assegnato a Dipartimento Dipendente (0,1) CF Nome Dipendente (0,1) CF Nome Lavora a Assegnato (1,n) Progetto (1,1) Cod Descrizione (1,n) Dipartimento Nome Ind. Appartiene (1,n) Dipartimento Nome Ind. 4

4. Incompatibilità, quando R1 e R2 sono in contrasto Esempio: personale tecnico e amministrativo dell Università CF CF Dipendente (1,1) Nome Dipendente (0,n) Nome Afferenza Afferenza (1,n) Dipartimento Nome Ind. (0,n) Dipartimento Nome Ind. Primo caso tipico del personale tecnico di laboratorio. Secondo caso modella anche il personale dell Amministrazione Centrale e amministrativo. 5

Analisi comparativa per scoprire le relazioni tra R1 e R2 svolta in stretta collaborazione con gli esperti del dominio. L aspetto critico consiste nell individuare i possibili conflitti: 1. Eterogeneità dei formalismi con diverso potere espressivo negli schemi locali (relazionale, Object Oriented, formati di file, ER, UML, ) 2. Conflitti di nome: Omonimie Nome Dipartimento (0,n) Ind. Edificio (0,n) N Ind. Possiede Contiene (1,1) Attrezzatura Inventario Tipo (1,1) Attrezzatura Inventario Tipo scientifica mobilio 6

Conflitti di nome: Sinonimie Nome Cliente (0,n) Ind. Detiene Acquirente (0,n) Emette Nome Ind. (1,1) Credito Codice Tipo (1,1) Ordine N Data E opportuno istituire un dizionario dati che annoti tutte le omonimie e sinonimie riscontrate comparando i vari schemi. 7

3. Conflitti semantici, quando si modella la stessa realtà con diverso livello di astrazione (1,n) Edificio N Ind. Edificio (1,n) Contiene (1,1) Piano Appartamento (1,1) Possiede (1,n) Proprietario N Ind. N Descrizione CF Nome (1,1) Piano N (1,n) Contiene (1,1) N Appartamento Descrizione (1,1) Possiede (1,n) CF Proprietario Nome 8

Conflitti strutturali Conflitti di tipo, stesso concetto modellato con diversi costrutti. Es.: Piano nella diapositiva precedente. Conflitti di dipendenza, due o più concetti associati con cardinalità diverse. Es.: uomo (sposa n:m) donna con possibilità di storicizzare, uomo (sposa 1:1) donna. Conflitti di chiave, identificatori diversi. Es.: matricola in uno schema, CF in un altro Conflitti di comportamento, politiche di cancellazione/modifica diverse nei vari schemi. Es.: Cancellazione studente nella base dati borsisti EDISU se reddito superiore di una data soglia, mentre nella base dati universitaria viene registrata la non assegnazione. L individuazione delle correlazioni tra R1 e R2 e dei conflitti richiede una approfondita conoscenza della semantica, per questo motivo la documentazione degli schemi operazionali deve essere accurata e formale. 9

2). Riconciliazione e integrazione degli schemi Mapping tra gli elementi degli schemi sorgenti per arrivare allo schema riconciliato. Schema R1 Schema R2 Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Parola chiave Testo Area Argomento Testo Area 102

Allineamento degli schemi Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Parola chiave Testo Area Argomento Testo Area Argomento sinonimo di Parola chiave ; Editore conflitto di tipo 11

Allineamento degli schemi Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Argomento Testo Area Argomento Testo Area Argomento sinonimo di Parola chiave, scegliamo Argomento ; Editore conflitto di tipo 12

Fusione Editore Nome Ind Pubblicazione Cod Titolo Libro Cod Titolo Argomento Testo Area La fusione spesso introduce ridondanze, Es.: le entità Pubblicazione e Libro che non sono esattamente sovrapponibili, bensì una entità è sotto entità dell altra. 13

Fusione Editore Nome Ind Pubblicazione Cod Titolo Argomento Testo Area Libro Ancora ridondanze: le associazioni superflue 14

Fusione Schema integrato o Schema Globale (GAV: Globel As View). Editore Nome Ind Pubblicazione Cod Titolo Argomento Testo Area Libro In generale ad ogni concetto dello schema globale corrisponde una vista sugli schemi sorgente Proprietà desiderate dello schema globale: Completezza, dopo la sovrapposizione occorre scoprire tutte le relazioni tra le varie entità (associazioni e gerarchie) Minimalità, cancellazione delle eventuali ridondanze, come da esempio. Leggibilità, nel contesto decisionale dell organizzazione. 15