Data warehouse Progettazione di un data warehouse
Architettura di un dw 2
Componenti di un dw Due funzioni principali: 1. Prendere le informazioni dai sistemi operazionali, pulirle e metterle dentro il dw 2. Prendere le informazioni dal dw e presentarle all utente 3 Federica Cena-
4
Sviluppo di un dw 1. Analisi e riconciliazione delle fonti à schema riconciliato + requisiti (obiettivi strategici) 2. Analisi dei requisiti 3. Progettazione concettuale à schema di fatto 4. Validazione dello schema concettuale 5. Progettazione logica à schema logico 6. (Progettazione fisica à procedure di indicizzazione e di memorizzazione) 5 Federica Cena-
Data warehouse Analisi e riconciliazione delle fonti (*Prof. Giolito)
Analisi e riconciliazione 1. Analisi e riconciliazione delle fonti schema riconciliato + requisiti (obiettivi strategici) 1. Premesse: non tutti i dati che abbiamo ci interessano 2. Alcuni dati sono disallienati 3. Per ogni fonte disponibie: 1. Passo 1: modello E-R (schema locale) 2. Passo 2: portare allo schema riconciliato (solo ciò che serve al db) 2 Federica Cena-
Analisi e riconciliazione 1. Possibili relazioni tra R1 e R2 1. Identità 2. Equivalenza 3. Comparabilità 4. Incompatibilità analisi dei possibili conflitti 3 Federica Cena-
Analisi e riconciliazione 1. Possibili conflitti tra schemi 1. Eterogeneità 2. Conflitti 1. Di nome 1. Omonimie 2. Sinonime 2. Semantici 3. strutturali 4 Federica Cena-
Processo di riconciliazione Euristiche: 1. Riconosco la diversità 2. Opero una fusione schema riconciliato 1. Completezza 2. Minimalità 3. leggibilità 5 Federica Cena-
FASE 1: Analisi e riconciliazione delle fonti dei dati La fase è particolarmente critica se le fonti presentano un alta eterogeneità. Schema riconciliato Schema esportato R1 Modello ER Schema esportato R2 Schema locale 1 Modello locale Schema locale 2 Fonte dati 1 Fonte dati 2 2
Possibili relazioni tra due rappresentazioni R1 e R2 1. Identità: R1 coincide con R2, è il caso fortunato. 2. Equivalenza: Se le le istanze di R1 e R2 possono essere messe in corrispondenza uno a uno. Esempio: Edito da Libro (1,1) ISBN Titolo Libro ISBN Titolo Casa Ed. (1,n) Casa Editrice Nome Indirizzo Indirizzo Casa Ed. 3
3. Comparabilità: Schemi non in contrasto, ma con punti di vista diversi, Esempio: Dipendente assegnato a Dipartimento Dipendente (0,1) CF Nome Dipendente (0,1) CF Nome Lavora a Assegnato (1,n) Progetto (1,1) Cod Descrizione (1,n) Dipartimento Nome Ind. Appartiene (1,n) Dipartimento Nome Ind. 4
4. Incompatibilità, quando R1 e R2 sono in contrasto Esempio: personale tecnico e amministrativo dell Università CF CF Dipendente (1,1) Nome Dipendente (0,n) Nome Afferenza Afferenza (1,n) Dipartimento Nome Ind. (0,n) Dipartimento Nome Ind. Primo caso tipico del personale tecnico di laboratorio. Secondo caso modella anche il personale dell Amministrazione Centrale e amministrativo. 5
Analisi comparativa per scoprire le relazioni tra R1 e R2 svolta in stretta collaborazione con gli esperti del dominio. L aspetto critico consiste nell individuare i possibili conflitti: 1. Eterogeneità dei formalismi con diverso potere espressivo negli schemi locali (relazionale, Object Oriented, formati di file, ER, UML, ) 2. Conflitti di nome: Omonimie Nome Dipartimento (0,n) Ind. Edificio (0,n) N Ind. Possiede Contiene (1,1) Attrezzatura Inventario Tipo (1,1) Attrezzatura Inventario Tipo scientifica mobilio 6
Conflitti di nome: Sinonimie Nome Cliente (0,n) Ind. Detiene Acquirente (0,n) Emette Nome Ind. (1,1) Credito Codice Tipo (1,1) Ordine N Data E opportuno istituire un dizionario dati che annoti tutte le omonimie e sinonimie riscontrate comparando i vari schemi. 7
3. Conflitti semantici, quando si modella la stessa realtà con diverso livello di astrazione (1,n) Edificio N Ind. Edificio (1,n) Contiene (1,1) Piano Appartamento (1,1) Possiede (1,n) Proprietario N Ind. N Descrizione CF Nome (1,1) Piano N (1,n) Contiene (1,1) N Appartamento Descrizione (1,1) Possiede (1,n) CF Proprietario Nome 8
Conflitti strutturali Conflitti di tipo, stesso concetto modellato con diversi costrutti. Es.: Piano nella diapositiva precedente. Conflitti di dipendenza, due o più concetti associati con cardinalità diverse. Es.: uomo (sposa n:m) donna con possibilità di storicizzare, uomo (sposa 1:1) donna. Conflitti di chiave, identificatori diversi. Es.: matricola in uno schema, CF in un altro Conflitti di comportamento, politiche di cancellazione/modifica diverse nei vari schemi. Es.: Cancellazione studente nella base dati borsisti EDISU se reddito superiore di una data soglia, mentre nella base dati universitaria viene registrata la non assegnazione. L individuazione delle correlazioni tra R1 e R2 e dei conflitti richiede una approfondita conoscenza della semantica, per questo motivo la documentazione degli schemi operazionali deve essere accurata e formale. 9
2). Riconciliazione e integrazione degli schemi Mapping tra gli elementi degli schemi sorgenti per arrivare allo schema riconciliato. Schema R1 Schema R2 Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Parola chiave Testo Area Argomento Testo Area 102
Allineamento degli schemi Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Parola chiave Testo Area Argomento Testo Area Argomento sinonimo di Parola chiave ; Editore conflitto di tipo 11
Allineamento degli schemi Editore Nome Ind Pubblicazione Cod Titolo Editore Libro Cod Titolo Argomento Testo Area Argomento Testo Area Argomento sinonimo di Parola chiave, scegliamo Argomento ; Editore conflitto di tipo 12
Fusione Editore Nome Ind Pubblicazione Cod Titolo Libro Cod Titolo Argomento Testo Area La fusione spesso introduce ridondanze, Es.: le entità Pubblicazione e Libro che non sono esattamente sovrapponibili, bensì una entità è sotto entità dell altra. 13
Fusione Editore Nome Ind Pubblicazione Cod Titolo Argomento Testo Area Libro Ancora ridondanze: le associazioni superflue 14
Fusione Schema integrato o Schema Globale (GAV: Globel As View). Editore Nome Ind Pubblicazione Cod Titolo Argomento Testo Area Libro In generale ad ogni concetto dello schema globale corrisponde una vista sugli schemi sorgente Proprietà desiderate dello schema globale: Completezza, dopo la sovrapposizione occorre scoprire tutte le relazioni tra le varie entità (associazioni e gerarchie) Minimalità, cancellazione delle eventuali ridondanze, come da esempio. Leggibilità, nel contesto decisionale dell organizzazione. 15
Lezione 2: Data warehouse Modello concettuale dei dati Modello multimensionale dei dati p Il modello multidimensionale viene adottato come paradigma di rappresentazione dei dati nel DW p Partiamo dalle interrogazioni la cui soddisfazione esso si presta maggiormente: 2 1
Modello multidimensionale p Che incassi sono stati registrati l anno scorso per ciascuna regione e ciascuna categoria di prodotto? p Che correlazione esiste tra l andamento dei titoli azionari dei produttori di PC e i profitti trimestrali lungo gli ultimi 5 anni? p Quali sono gli ordini che massimizzano gli incassi? p Quale di due nuove terapie comportera una diminuzione della durata media di un ricovero? Federica Cena- 3 Modello multidimensionale p Informazioni riassuntive, con la possibilità di dettagliare i riassunti p Analisi delle informazioni riassuntive in base a componenti organizzative come aree e dipartimenti p Possibilità di slice (affettare) and dice (tagliare a dadini) delle informazioni p Possibilità di vedere le informazioni nel tempo p Vedere le informazioni sia in forma tabulare che grafica Federica Cena- 4 2
Modello Multidimensionale I dati vengono analizzati per identificare tendenze e, quindi, facilitare il processo decisionale n Quale e il mese con le maggiori vendite? n Quali sono stati i primi cinque prodotti venduti a Pisa? Interessano non solo i dati ma anche le loro aggregazioni (media, il minimo, massimo, somma, etc) 5 Modello multidimensionale p Esprimere interrogazioni di questa natura tramite linguaggi come SQL risulta alquanto complesso e la loro esecuzione su bd operazionali porterebbe a tempi di risposta difficilmente accettabili p il Modello multidimensionale nasce dalla constatazione che gli oggetti che influenzano il processo decisionale sono FATTI del mondo aziendale, quali ad esempio le vendite, le spedizioni, i ricoveri, gli interventi chirurgici. Federica Cena 6 3
Modello multidimensionale p Le occorrenze del fatto corrispondono a eventi accaduti: ciascuna vendita effettuata è un evento p Per ciascun fatto di interesse interessano i valori di misure che descrivono quantitativamente gli eventi: l incasso di una vendita, la quantità spedita, il costo di un ricovero. p Gli eventi possono essere collocati su uno spazio n-dimensionale i cui assi definiscono le dimensioni di analisi Federica Cena 7 Modello multidimensionale - Semplice da capire - Non ambiguo - Riflette il modo in cui le persone pensano e prendono decisioni Federica Cena 8 4
Modello dei dati multidimensionale p Fatto: concetto di interesse per il processo decisionale (ad esempio, vendite) p Misure: proprietà numerica di un fatto, descrive un aspetto quantitativo (quantità venduta, incasso) p Dimensioni: proprietà con un dominio finito di un fatto, descrive una coordinata di analisi (luogo, prodotto) p Un fatto è analizzato attraverso tante dimensioni. Federica Cena 9 Modello multidimensionale Fatti: behavioural, dati comportamentali, derivano da interazione utente con il sistema, dinamici, cambiano Dimensioni: circumstances (attributi), cambiano meno 10 Federica Cena- 5
Esempio di analisi p Possibili dimensioni n Prodotto (tipo di prodotto) n Tempo (mese, bimestre, anno) n Cliente (dettaglio, grossista, diretto) n Responsabilità (punto vendita, rivenditore) p Lo schema multidimensionale favorisce la multidimensionalità del ragionamento n Che cosa? chi? Quanto? Come? Dove? 11 12 6
Cubo p incentrato su un fatto di interesse per il processo decisionale. p Rappresenta un insieme di eventi descritti quantitativamente da misure numeriche p Ogni asse del cubo rappresenta una possibile dimensione di analisi p ciascuna dimensione può essere vista a piu livelli di dettaglio, individuata da attributi, eventualmente strutturati in gerararchie 13 14 7
Cubo Assi: tempo, punto vendita, prodotto Misura: quantità di venduto Ogni elemento del cubo (minicubo) contiene i valori di vendita per un particolare cliente e prodotto in un tempo preciso (t0) Federica Cena- 15 Caratteristiche dei DW Federica Cena 16 8
Datawarehouse: obiettivi Federica Cena 17 p Rappresentazione a matrice Federica Cena 18 9
Esempio di analisi 20 10
Modello multidimensionale p Le dimensioni possono essere più di tre, ma non è intuitivo immaginarlo p Anche le misure possono essere più di una (nella cella ci saranno più valori) 21 Federica Cena 22 11
Gerarchia delle dimensioni p Ogni dimensione può essere strutturata in una gerarchia di variabili che rappresentano diversi livelli di aggregazione p esempio dimensione punto vendita 23 Gerarchia delle dimensioni esempio dimensione tempo 24 12
Gerarchia delle dimensioni esempio dimensione prodotto 25 26 13
Data warehouse Modellazione Concettuale Modello concettuale Modello semplificato rispetto a base di dati - La struttura è predicibile (è sempre la stessa): tab dei fatti al centro con le dimensioni collegate - Le relazioni sono sempre 1:m dove : - La dimensione è la parte 1 della relazione e la tabella dei fatti è la parte M - Gerarchia: la dimensione più vicina ai fatti è la parte Many, l entità più esterna è la parte 1 Non serve specificare la cardinalità minima - La dimensione 1 è sempre facoltativa - La dimensione m è sempre obbligatoria Non ci sono sovracclassi 28 14
Modello concettuale: 2 tipi p A stella (star) p A fiocco di neve (snowflakes) Federica Cena 29 Modello concettuale a stella Punto vendita m:n prodotto vendita tempo m:n 30 15
Modello concettuale a fiocco di neve m:1 region e Prodotto m:n m:1 provin cia citta vendita tempo m:n 31 Modello concettuale: modalità di rappresentazione p Si puo disegnare con n Schema E-R (come data base) n DOT model (rappresenta i fatti come punti) 32 16
Modello concettuale (Dot Model) Dimensione Operatori Clienti Provincia Regione Regione Provincia_dest Professio ne Categoria Localizz_dest Viaggi Sistemazione Mezzi Periodo Progettazione concettuale di un DW Passi 1. Decidere i fatti 2. Decidere le unità di misura 3. Decidere la granularità di analisi: dimensioni 4. Decidere attributi delle dimensioni 5. Decidere quali aggregazioni e partizionamenti (gerar 6. Decisioni riguardo il tempo 7. Costruzione del modello concettuale, scegliendo il Formalismo (Dot Model, ER) 34 17