Corso di Complementi di Basi di dati A.A Data Warehouse
|
|
- Alina Martelli
- 8 anni fa
- Visualizzazioni
Transcript
1 Riferimenti Corso di Complementi di Basi di dati A.A Data Warehouse Queste trasparenze parte 4 Testo di Atzeni et al. Basi di dati R.Kimball, The Data Warehouse Lifecycle Toolkit, 2nd Ed., Wiley, 2003 M. Golfarelli, S. Rizzi Data Warehouse, seconda edizione, McGraw Hill, /24/ Sommario 1. Introduzione: On Line Transaction Processing e On Line Analytical Processing 2. Data warehouse: generalita Processo di generazione, struttura di un data warehouse e modelli per la sua descrizione: il modello star schema e il modello cube 3. Il modello star schema: struttura e operazioni 4. Il modello data cube: struttura e operazioni 5. Un esempio 6. Progettazione di data warehouse - Fasi - Progettazione concettuale - Cenni alla progettazione logico fisica 1. Introduzione: On Line Transaction Processing e On Line Analytical Processing 1/24/ /24/ Processi di una organizzazione classificazione Processi di una organizzazione Decisionali: Per le decisioni a lungo termine, fortemente integrati. Es. processi di decisione di apertura di nuovi punti vendita processi decisionali processi decisionali processi gestionali processi operativi Gestionali: per il controllo dei processi operativi, settoriali Es. analisi degli scostamenti a breve termine tra costi e ricavi Operativi, per costruire prodotti e servizi nella catena di fornitura, molto specifici Es. prenotazione di un viaggio in treno processi gestionali processi operativi 1/24/ /24/
2 On Line Transaction Processing Tradizionale elaborazione di transazioni, che realizzano i processi operativi dell azienda-ente Operazioni predefinite e relativamente semplici Ogni operazione coinvolge pochi dati Queries senza aggregazioni o con aggregazioni semplici Es. Prenotazioni online, ricerche per chiave Dati elementari, aggiornati Frequenti, molti utenti Le proprietà ACID (atomicità, correttezza, isolamento, durabilità) delle transazioni sono essenziali Ottimizzano il throughput di transazioni di lettura e scrittura in presenza di concorrenza Sistemi di supporto alle decisioni Richiedono operazioni non previste a priori Coinvolgono spesso grandi quantità di dati, anche storici e aggregati Coinvolgono dati provenienti da varie fonti, anche esterne processi decisionali processi gestionali processi operativi Istat 1/24/ /24/ On Line Analytical Processing Elaborazione di operazioni per i processi decisionali Operazioni complesse e casuali Queries con aggregazioni contemporanee su piu dimensioni Es.: totale posti prenotati aggregati per regione e per tipo di cliente, oppure totale posti prenotati per periodo e per agenzia Ogni operazione può coinvolgere molti dati Dati aggregati, storici, anche non attualissimi Utenti selezionati Le proprietà ACID non sono rilevanti, perché le operazioni sono di sola lettura OLTP e OLAP I requisiti sono quindi contrastanti Le applicazioni dei due tipi possono danneggiarsi a vicenda I Data Warehouse sono sistemi di supporto all On Line Analytical Processing 1/24/ /24/ Data warehouse 2. Data warehouse Generalita 1/24/ Una base di dati di tipo On Line Analytical Processing utilizzata principalmente per il supporto ai processi decisionali integrata aziendale e non dipartimentale orientata ai dati non alle applicazioni orientata a dati storici con un ampio orizzonte temporale non volatile i dati sono caricati e acceduti fuori linea mantenuta separatamente dalle basi di dati operazionali 1/24/
3 Integrata I dati di interesse provengono da tutte le sorgenti informative ciascun dato proviene da una o più di esse Il data warehouse rappresenta i dati in modo univoco riconciliando le eterogeneità dalle diverse rappresentazioni nomi codifiche formati significato 1/24/ Orientata ai dati Le basi di dati operazionali sono costruite a supporto dei singoli processi operativi o applicazioni, ad esempio: produzione vendita Il data warehouse è costruito attorno alle principali entità del patrimonio informativo aziendale, ad esempio: prodotto cliente 1/24/ Orientata a dati storici Le basi di dati operazionali mantengono il valore corrente delle informazioni L orizzonte temporale di interesse è dell ordine di pochi mesi, o giorni. Nel data warehouse è di interesse l evoluzione storica delle informazioni L orizzonte temporale di interesse è dell ordine degli anni Non volatile In una base di dati operazionale, i dati vengono inseriti, modificati, cancellati, interrogati pochi record alla volta Nel data warehouse, abbiamo operazioni di accesso e interrogazione diurne operazioni di caricamento e aggiornamento dei dati notturne che possono riguardare milioni di record 1/24/ /24/ Base dati separata Per tanti motivi non esiste un unica base di dati operazionale che contiene tutti i dati di interesse Nel Data Warehouse la base di dati deve essere integrata non è tecnicamente possibile fare l integrazione in linea i dati di interesse sarebbero comunque diversi devono essere mantenuti dati storici devono essere mantenuti dati aggregati l analisi dei dati richiede per i dati organizzazioni speciali e metodi di accesso specifici (vedi in seguito) Visti i diversi obiettivi, ci sarebbe un degrado generale delle prestazioni senza la separazione L analisi multidimensionale e i modelli descrittivi di DW: il modello star schema e il modello cube dalle 1/24/2006 basi di dati operazionali 17 1/24/
4 Data Warehouse e analisi multidimensionale Le interrogazioni tipiche effettuate sui data warehouse possono riguardare insiemi di entita, relazioni e attributi (in una terminologia ER), ovvero relazioni e attributi (in una terminologia relazionale) molto ampi. Per questa ragione l analisi sui dati tipica dei sistemi data warehouse e chiamata analisi multidimensionale. Esempioditipicaanalisiper unaaziendadi produzione di automobili Quanto ho incassato a seguito di vendite di automobili per regione per mese per tipo di cliente? 1/24/ /24/ Concetti rilevanti nella analisi multidimensionale L analisi richiede normalmente dimensioni multiple: quanto ho incassato a seguito di vendite di automobili per regione per mese per tipo di cliente? Concetti rilevanti nella analisi multidimensionale L analisi richiede normalmente dimensioni multiple: quanto ho incassato MISURA 1/24/ /24/ Concetti rilevanti nella analisi multidimensionale L analisi richiede normalmente dimensioni multiple: quanto ho incassato MISURA a seguito di vendite di automobili FATTO Concetti rilevanti nella analisi multidimensionale L analisi richiede normalmente dimensioni multiple: quanto ho incassato MISURA a seguito di vendite di automobili FATTO per regione DIMENSIONI per mese per tipo di cliente? 1/24/ /24/
5 Rappresentazione multidimensionale La rappresentazione multidimensionale ha come concetti rilevanti: Fatto un concetto sul quale centrare l analisi Misura/e una/piu proprietà atomica di un fatto che si vuole analizzare Dimensione una prospettiva secondo la quale effettuare l analisi 1/24/ Esempi di fatti/misure/dimensioni Catena di negozi Fatto: vendita di prodotti Misure: unità vendute, incasso Dimensione: prodotto, tempo, zona Compagnia telefonica Fatto: telefonata Misure: costo, durata Dimensione: chiamante, chiamato, tempo, zona. 1/24/ Due modelli per DW Modello logico: Star Schema Per rappresentare fatti, misure, dimensioni rispetto al modello Entita Relazione si dimostra piu espressivo il modello detto Star Schema, che corrisponde a uno schema relazionale di forma particolare Direttamente esprimibile in un DB relazionale Chiamato anche Relational OLAP (ROLAP) Modello operazionale: Data Cube Un Data Cube, che descrive tutte le possibili aggregazioni che possono essere effettuate partendo dalle dimensioni scelte Implementabile su un DB relazionale Chiamato anche Multidimensional OLAP (MOLAP) 1/24/ Processo di costruzione di un data warehouse 1/24/ Fonti Fonti e fasi di: costruzione, aggiornamento e elaborazione di un Data Warehouse Sorgenti esterne Basi di dati operazionali 1. Estrazione 2. Esportazione 3. Allineamento 4. Accesso Data Warehouse Strumenti di analisi Analisi dimensionale Visualizzazione Data mining Fasi di costruzione, aggiornamento, elaborazione 1. Estrazione/Filtraggio dei dati provenienti dalle sorgenti esterne Estrae i dati dalle sergoenti ed effettua una verifica di correttezza dei dati e, in caso di dati scorretti, di pulizia (circa 50% dell intero sforzo) 2. Esportazione dei dati da tutti i dati provenienti dalle sorgenti, sceglie quelli da esportare nel DW 3. Allineamento dei dati Propaga le modifiche sul DW 4. Accesso ai dati Realizza le operazioni di analisi dei dati (vedi in seguito) 1/24/ /24/
6 Struttura di un Data Warehouse e sua organizzazione in Data Mart DW e data mart I data mart sono sottoinsiemi logici dell intero datawarehouse, cioe restrizioni del data warehouse a un particolare processo di supporto alle decisioni Fonti Sorgenti esterne Data Warehouse Strumenti di analisi Analisi dimensionale Basi di dati operazionali Visualizzazione Data mining Data Mart 1/24/ /24/ Pro e contro dei data mart - 1 In genere esprimono un obiettivo fattibile, mentre la realizzazione one shot di un intero DW e spesso un obiettivo improbo Ad esempio per Trenitalia, costruire l intero DW della azienda e molto oneroso, mentre i data mart della sicurezza, dei ritardi, dei clienti, delle tratte che portano piu profitto, sono piu piccoli e fattibili Per il Ministero di Giustizia, e complesso costruire il DW dei processi penali e civili, i due separati sono piu fattibili. Non si segue dunque un approccio top down Data Warehouse Data Mart 1/24/ /24/ Quanto piuttosto bottom up Data Warehouse Pro e contro dei data mart - 2 L approccio bottom-up rende difficile e spesso porta a non realizzare alla fine l intero DW Ad esempio, costruire per Trenitalia il DM della sicurezza a partire da un certo anno, rende poi piu complicato costruire il DM dei profitti per le varie tratte perche e piu complicato ricostruire i dati mancanti. Data Mart 1/24/ /24/
7 Contenuti 3. Il modello Star Schema Struttura del modello Operazioni di aggregazione sul modello star schema 1/24/ /24/ Due tipi di tabelle per lo Star Schema Tabella dei fatti Tabelle delle dimensioni Definiamole formalmente utilizzando anche un esempio, riguardante una catena di negozi di prodotti alimentari Fatti: vendite dei singoli prodotti (es bottiglia di olio Spremi) nei diversi negozi ai diversi clienti Misure Unita vendute Incassi Dimensioni Orario, ad esempio ogni ora di ogni giorno di un insieme di anni Luogo, dove e localizzato ogni negozio della catena Prodotto venduto, ad esempio una certa bottliglia di olio Cliente che ha una carta fedelta, e di cui e noto cog, 1/24/ ecc Modello star schema Tabella Fatti Vendite Codice orario Codice luogo Codice prodotto Codice cliente Unità Incasso Chiave composta dalle chiavi delle dimensioni Gli altri campi rappresentano le misure Rappresenta l evento di vendita del singolo prodotto al singolo cliente in un particolare negozio in un particolare orario, con unita vendute (es. tre bottiglie di olio) e incasso 1/24/ Modello star schema Dimensioni Modello star schema Tempo Codice orario Ora Giorno Settimana Mese Trimestre Anno Luogo Tabella Fatti Vendite Codice orario Codice luogo Codice prodotto Codice cliente Unità Incasso Prodotto Codice prodotto Descrizione Colore Modello Codice categoria Categoria Cliente Tabelle Dimensioni Codice luogo Codice cliente Negozio Chiave semplice Nome Indirizzo Cog Codice Città Gli attributi Indirizzo Città rappresentano Età Codice Regione gli attributi della Codice professione Regione dimensione Professione Codice 1/24/2006 Stato 41 Stato Tempo Codice orario Ora Giorno Settimana Mese Trimestre Anno Luogo Fatti Vendite Codice orario Codice luogo Codice prodotto Codice cliente Unità Incasso Prodotto Codice prodotto Descrizione Colore Modello Codice categoria Categoria Cliente Codice luogo Negozio Codice cliente Indirizzo Nome Codice Città Città Misure Cog Codice Regione Indirizzo Regione Età Codice 1/24/2006 Stato Codice professione 42 Stato Professione 7
8 Modello snowflake schema (a fiocco di neve) Modello snowflake schema (a fiocco di neve) Le tabelle sono normalizzate in Boyce Codd Normal form Ha piu tabelle rispetto allo schema star Luogo Codice luogo Negozio Indirizzo Codice Città Città Codice Regione Regione Dipendenze funzionali Cod. luogo Citta Citta Cod. Regione Cod Regione Regione Luogo Codice luogo Negozio Indirizzo Codice Città Città Codice Regione Luogo CodiceLuogo Codice Citta Citta Regione Codice Citta Codice Regione 1/24/ /24/ Citta CodiceCitta Citta Codice Regione Regione Codice Regione Regione Modello snowflake schema Tempo Codice orario Ora Giorno Settimana Mese Trimestre Anno Luogo Codice luogo Negozio Indirizzo Codice Città Vendite Codice orario Codice luogo Codice prodotto Codice cliente Unità Incasso Prodotto Codice prodotto Descrizione Colore Modello Codice categoria Cliente Codice cliente Nome Cog Indirizzo Età Codice professione Categoria Codice categoria Categoria Professione Codice professione Professione 1/24/ Dimensioni e gerarchie di livelli Ciascuna dimensione puo essere organizzata in una gerarchia che rappresenta i possibili livelli di aggregazione per i dati relativi alla dimensione regione provincia città negozio categoria prodotto marca anno trimestre mese giorno 1/24/ Alcune categorie possono avere forma di reticolo settimana anno trimestre mese giorno Costruzione delle aggregazioni nel modello star schema 1/24/ /24/
9 Forma generale delle aggregazioni - 1 La forma generale delle query per il modello star schema usa la clausola GROUP BY gia vista nel corso di Elementi di Basi di dati 1/24/ Forma generale delle aggregazioni - 2 SELECT insieme degli attributi di raggruppamento e delle aggregazioni (SUM, etc) FROM Tabella dei fatti insieme a zero o piu tabelle delle dimensioni in join con la tabella dei fatti WHERE condizioni di join tra le tabelle citate nella FROM piu condizioni di selezione sugli attributi (in genere ATTR = Valore oppure ATTR compreso in un intervallo) GROUP BY insieme degli attributi di raggruppamento 1/24/ Contenuti 4. Modello Data cube Il modello Data cube Operazioni di aggregazione/ disaggregazione nel modello data cube 1/24/ /24/ Data Cube Rappresenta tutte le possibili aggregazioni di fatti (e relative misure) calcolabili a partire dalle dimensioni Esempio utilizzato Fatti: automobili vendute Misure: incassi Dimensioni: Modello (model) Anno (Year) Colore (Color) 1/24/ /24/
10 Esempio di data cube SALES Model Year Color Sales Chevy 1990 red 5 Chevy 1990 white 87 Chevy 1990 blue 62 Chevy 1991 red 54 Chevy 1991 white 95 Chevy 1991 blue 49 Chevy 1992 red 31 Chevy 1992 white 54 Chevy 1992 blue 71 Ford 1990 red 64 Ford 1990 white 62 Ford 1990 blue 63 Ford 1991 red 52 Ford 1991 white 9 Ford 1991 blue 55 Ford 1992 red 27 Ford 1992 white 62 Ford 1992 blue 39 CUBE DATA CUBE Model Year Color Sales ALL ALL ALL 942 chevy ALL ALL 510 ford ALL ALL 432 ALL 1990 ALL 343 ALL 1991 ALL 314 ALL 1992 ALL 285 ALL ALL red 165 ALL ALL white 273 ALL ALL blue 339 chevy 1990 ALL 154 chevy 1991 ALL 199 chevy 1992 ALL 157 ford 1990 ALL 189 ford 1991 ALL 116 ford 1992 ALL 128 chevy ALL red 91 chevy ALL white 236 chevy ALL blue 183 ford ALL red 144 ford ALL white 133 ford ALL blue 156 ALL 1990 red 69 ALL 1990 white 149 ALL 1990 blue 125 ALL 1991 red 107 ALL 1991 white 104 ALL 1991 blue 104 ALL 1992 red 59 ALL 1992 white 116 ALL 1992 blue 110 1/24/ Gruppo di valori nella tabella DATA CUBE Model Year Color Sales ALL ALL ALL 942 chevy ALL ALL 510 Esempio ford ALL ALL 432 ALL 1990 ALL 343 ALL 1991 ALL 314 ALL 1992 ALL Tutti gli elementi (incassi ALL ALL white 273 ALL ALL red 165 ALL ALL blue 339 da auto vendute, sales) in chevy 1990 ALL 154 chevy 1991 ALL 199 un area che corrispondono a chevy 1992 ALL 157 una stessa coppia di valori, ad ford 1990 ALL 189 ford 1991 ALL 116 esempio, di anno(year) e colore ford 1992 ALL 128 chevy ALL red 91 (color) chevy ALL white 236 chevy ALL blue 183 ford ALL red Tutti gli incassi di un anno ford ALL white 133 ford ALL blue 156 ALL 1990 red Tutti gli incassi di sempre ALL 1990 white 149 ALL 1990 blue 125 ALL 1991 red 107 ALL 1991 white 104 ALL 1991 blue 104 ALL 1992 red 59 ALL 1992 white 116 1/24/2006 ALL 1992 blue Cubo iniziale Costruzione del data cube per strati successivi SALES Model Year Color Sales Chevy 1990 red 5 Chevy 1990 white 87 Chevy 1990 blue 62 Chevy 1991 red 54 Chevy 1991 white 95 Chevy 1991 blue 49 Chevy 1992 red 31 Chevy 1992 white 54 Chevy 1992 blue 71 Ford 1990 red 64 Ford 1990 white 62 Ford 1990 blue 63 Ford 1991 red 52 Ford 1991 white 9 Ford 1991 blue 55 Ford 1992 red 27 Ford 1992 white 62 Ford 1992 blue 39 Cubo iniziale CHEVY FORD RED WHITE BLUE 1/24/ /24/ Aggiungiamo Group by per ogni coppia di attributi Aggiungiamo Group by per singoli attributi By Model & Year FORD CHEVY By Model & Year FORD CHEVY By Year By Make By Color & Year RED WHITE BLUE By Model & Color By Color & Year By Color RED WHITE BLUE By Model & Color 1/24/ /24/
11 Aggiungiamo Group by totale By Year By Color & Year By Model & Year FORD CHEVY Sum By Color By Make RED WHITE BLUE By Model & Color 1/24/ Struttura del data cube Il data cube può essere visto come un reticolo di cuboidi calcolati attraverso Group-By 1 cubo base su n =3 dimensioni (color, year, model), 3 cubioidi su n-1 dimensioni (year, model),(model, color), (color, year) 3 cuboidi su n-2 dimensioni (color), (year), (model) 1 cuboide su n-3 dimensioni () aggregazione applicata all intero insieme di fatti () (year ) (year, model) (model) (model, color) (color) (color, year) (color, year, model) 1/24/ Operazioni di aggregazione/disaggregazione sulla rappresentazione Cube 1/24/ Operazioni su cube Roll up aggrega i dati, 1. salendo in una gerarchia per una dimensione (es da mese a trimestre) o 2. attraverso una riduzione di una dimensione (es eliminando mese) Es. Da volume di vendita totale per mese, categoria di prodotto e regione A volume di vendita totale per trimestre, categoria di prodotto e regione Oppure A volume di vendita totale per categoria di prodotto e regione 1/24/ L operazione di Roll Up Operazioni su dati multidimensionali Drilldown disaggrega i dati, cioe passa da un livello di dettaglio basso ad un livello di dettaglio alto, 1. scendendo in una gerarchia o 2.introducendo una nuova dimensione. Es. Da vendite mensili dettagliate per negozio, categoria di prodotto e regione A vendite giornaliere dettagliate per negozio, categoria di prodotto e regione mensile bimensile 1/24/ bimensile mensile 1/24/
12 Operazioni tipiche - 2 Slice e selezione Slice: esegue una selezione su una dimensione del cubo, fissando un valore per una dimensione Operazioni tipiche - 2 Slice e selezione Selezione: generalizzazione della Slice, in cui la selezione e di tipo generale, portando alla selezione di un sottocubo Tutti i mesi Mese = gennaio Tutti i mesi e tutte le citta Mesi da marzo a giugno e citta = Milano o Roma 1/24/ /24/ Specifiche generali del DW 5. Un esempio di DW e delle diverse parti di interesse per diversi ruoli aziendali Un azienda che vende prodotti di varia natura vuole realizzare un DW sulle vendite, aggregate secondo diverse dimensioni, per permettere a diversiruoliaziendalidiprenderele opportune decisioni sulla evoluzione temporale delle proprie azioni nella azienda 1/24/ /24/ Struttura della azienda Due tipi di divisioni Per regioni Per prodotti A livello centrale Divisione strategica Divisione finanziaria Ruoli aziendali Manager regionale per n regioni Manager di prodotto per m prodotti Manager strategico: uno Manager finanziario: uno 1/24/ /24/
13 Data warehouse su vendite Fatto: vendite Misura: quantita Dimensioni Aree di mercato (Regione, Zona goegrafica) Prodotti (NomeP, TipoP, Sett. merceologico) Periodi di tempo (Mese-di-anno, Anno) Struttura dello star schema Tabella dei fatti Vendite (Regione, NomeP, Mese-di-anno, Quantita ) Tabelle delle Dimensioni Aree di mercato (Regione, Zona geografica) Prodotti (NomeP, TipoP, Settore merceologico) Periodi di tempo (Mese-di-anno, Anno) 1/24/ /24/ Rappresentazione Star Schema Rappresentazione data cube Periodo Temporale #Mese Anno Vendita #Regione #Prodotto #Mese Quantita Area di mercato #Regione #Zona Geografica Prodotto #Prodotto Nome Tipo Settore Aree di mercato Vendite Quantità Periodi di tempo Prodotti 1/24/ /24/ Viste su dati multidimensionali Aree di mercato Il manager regionale e interessato alla vendita dei prodotti in tutti i periodi temporali relativamente alla propria regione Nel modello cube operazione Roll up seguita da Slice Aree di mercato Prodotti Prodotti Tempo 1/24/ Tempo 1/24/
14 La precedente analisi si puo effettuare nel modello star schema con la query Schema coinvolto Vendite(Regione, NomeP, Mese-di-anno, Quantita ) SELECT NomeP, Mese-di-Anno, SUM (Quantita ) From VENDITE WHERE REGIONE = Lombardia GROUP BY NomeP, Mese-di-Anno In questo caso non dobbiamo fare join Se si vuole modificare la precedente aggregando per area geografica Schema coinvolto Vendite (Regione, NomeP, Mese-di-anno, Quantita ) Aree di mercato (Regione, Zona goegrafica) SELECT NomeP, Zona geografica, Mese-di-anno SUM (Quantita ) From VENDITE, AREE_DI_MERCATO WHERE VENDITE. Regione.= AREE_DI_MERCATO.Regione GROUP BY NomeP, Zona geografica, Mese-di-anno 1/24/ /24/ Il manager di prodotto e interessato alla vendita di un prodotto in tutti i periodi e in tutte le aree geografiche Nel modello cube operazione roll up Aree di mercato Prodotti Il manager finanziario e interessato alla vendita dei prodotti in tutti i mercati nel tempo o relativamente al periodo corrente e quello precedente Nel modello cube operazione di selezione Aree di mercato Prodotti Tempo 1/24/ Tempo 1/24/ Il manager strategico si concentra su una categoria di prodotti, una area regionale e un orizzonte temporale medio Nel modello cube operazioni di slice e selezione Aree di mercato Prodotti Esercizio Completare le formulazioni delle interrogazioni nel modello star schema per i casi mancanti Tempo 1/24/ /24/
15 Progettazione di data warehouse 6. Progettazione di data wharehouse La progettazione di un data warehouse è diversa dalla progettazione di una base di dati operazionale i dati da memorizzare hanno caratteristiche eterogenee vincolata dalle basi di dati esistenti guidata da criteri progettuali diversi Attività principali analisi delle sorgenti informative esistenti integrazione progettazione concettuale, logica e fisica 1/24/ /24/ Fasi della progettazione di un DW Input: Requisiti degli utenti, basi di dati aziendali, altre fonti informative esterne Fase 1: Analisi 1.1. Selezione e analisi delle sorgenti informative 1.2. Traduzione delle sorgenti informative in un modello concettuale comune Fase 2: Integrazione 2.1 INTENSIONALE - Produzione dello schema concettuale integrato 2.2 ESTENSIONALE - Integrazioni delle sorgenti informative Fase 3 Progettazione logico fisica 3.1 Identificazione di fatti e dimensioni 3.2 Progettazione logico fisica 0. Informazioni in ingresso Le informazioni in ingresso necessarie alla progettazione di un data warehouse requisiti le esigenze aziendali di analisi descrizione delle basi di dati con una documentazione sufficiente per la loro comprensione descrizione di altre sorgenti informative esterne l analisi richiede spesso la correlazione con dati non di proprietà dell azienda ma comunque da essa accessibili ad esempio, dati ISTAT o sull andamento dei concorrenti 1/24/ /24/ Selezione e analisi delle sorgenti informative analisi preliminare del patrimonio informativo aziendale analisi di qualità delle singole sorgenti correlazione del patrimonio informativo con i requisiti identificazione di priorità tra schemi 1.2. Traduzione in un modello concettuale comune Uno schema ER è più espressivo di uno schema relazionale è necessario conoscere la realtà di interesse per recuperare la conoscenza persa nella fase di progettazione logica Puo utilizzare tecniche di reverse engineering Il reverse engineering è l attività di: comprensione concettuale di uno schema di dati (tipicamente relazionale) rappresentazione di uno schema relazionale in un modello concettuale 1/24/ /24/
16 Esempio di reverse engineering Relazione Persona Codice Fiscale, Nome, Cog, Citta di Nascita Relazione Dipendente Codice Fiscale, Nome, Cog, Citta di Nascita, Dipartimento, Stipendio Relazione Citta Citta, Regione Persona Città 2.1 Integrazione di schemi concettuali L integrazione di schemi concettuali è l attività di fusione dei dati rappresentati in più sorgenti in un unica base di dati globale che rappresenta l intero patrimonio informativo aziendale, rappresentato a livello concettuale Dipendente 1/24/ /24/ Integrazione di schemi concettuali Schema 1 Schema 2 Schema n Schema 2 Schema 1 Schema n Schema integrato 1/24/ Esempio utilizzato nella fase di integrazione codice sesso anno nascita città residenza marca categoria Cliente Occupazione Schema clienti Articolo codice prezzo costo scontrino data Vendita numero pezzi negozio incasso Schema vendite Vendita Negozio città Schema organizzazione 1/24/ Problemi nella integrazione di schemi concettuali Lo scopo principale dell integrazione è l identificazione di tutte le porzioni dei diversi schemi concettuali che si riferiscono a uno stesso aspetto della realtà di interesse, per unificare la loro rappresentazione Fasi rilevanti della integrazione di schemi Requisiti 1 Requisiti 2 A B E B C D F D A B E 1/24/ C F D 1/24/
17 Problemi nella integrazione di schemi concettuali Lo scopo principale dell integrazione è l identificazione di tutte le porzioni dei diversi schemi concettuali che si riferiscono a uno stesso aspetto della realtà di interesse, per unificare la loro rappresentazione L approccio è orientato alla identificazione, analisi e risoluzione di conflitti terminologici, strutturali, di codifica Schema 1 Persona Esempio di conflitto Citta di nascita Schema 2 Persona Nato Citta 1/24/ /24/ Conflitti: due tipi! L integrazione di schemi richiede la risoluzione dei conflitti relativi a: rappresentazione concettuale e rappresentazione dei dati Esempio di conflitto concettuale: un attributo sesso può essere rappresentato: con un carattere M/F con una cifra 0/1 implicitamente nel codice fiscale non essere rappresentato Esempio di conflitto sul formato dei dati: il e cog di una persona Mario, Rossi Mario Rossi Rossi, Mario Rossi, M. Integrazione di schemi - esempi di conflitti tra due schemi Omonimia Sinonimia Prodotto prezzo (di produzione) Impiegato Impiegato Prodotto prezzo (di vendita) Dipartimento Progetto Dipartimento Divisione Progetto Libro Libro editore Persona Persona sesso Uomo Donna Editore 1/24/ /24/ Differenti concetti Esempio marca categoria Articolo codice prezzo costo Nel nostro esempio marca categoria Articolo codice prezzo costo codice sesso anno nascita città residenza Cliente Occupazione Schema clienti scontrino data Vendita numero pezzi negozio incasso Schema vendite Vendita Negozio città Schema organizzazione 1/24/ codice sesso anno nascita città residenza Cliente (0,1) Occupazione Schema clienti scontrino data Vendita numero pezzi negozioincasso Schema vendite Vendita Negozio città Schema organizzazione 1/24/
18 Soluzione marca categoria (0,1) Articolo Vendita codice prezzo costo scontrino data numero pezzi incasso Schema vendite Schema integrato finale marca categoria Articolo codice prezzo costo codice sesso anno nascita città residenza Cliente Occupazione Negozio Vendita Negozio città codice sesso anno nascita città residenza Cliente Occupazione percentuale tempo Vendita Negozio scontrino data numero pezzi incasso città Schema clienti Schema organizzazione 1/24/ /24/ Una metodologia di integrazione Esempio di proprieta interschema Passo 1 - Trova i conflitti tra i concetti degli schemi Omonimie Sinonimie Conflittiditipo Risolvi i conflitti Passo 2 - Fondi gli schemi ed evidenzia le parti comune degli schemi Passo 3. Cerca le proprieta interschema, definite cioe su concetti nelle parti non in comune Schema 1 Persona Uomo Schema 2 1/24/ /24/ Integrazione di basi di dati Integrazione delle sorgenti informative Per ogni dato presente in piu basi di dati, occorre risolvere i conflitti presenti e arrivare ad una unica rappresentazione. I conflitti possono derivare da: differenza di formato (esempi precedenti) oppure da scarsa qualita dei dati, cioe errori nei dati. Vedi pagina successiva Tecnica tipicamente utilizzata: record matching, cioe ricerca per corrispondenza esatta, approssimata o probabilistica dei record relativi allo stesso oggetto della realta 1/24/ /24/
19 Id Diverse rappresentazioni dei nomi Tipo di attivita Citta Indirizzo Nome Esempio: Diverse rappresentazioni degli identificatori RI Registro imprese delle camere di commercio INPS INAIL 1/24/ /24/ Esempio: Diverse rappresentazioni del tipo di attivita 3.1 Identificazione fatti e dimensioni Linea guida 1: Un DW o Data Mart dovrebbe cogliere le esigenze di uno o piu processi aziendali Il DW va progettato in funzione del processo da supportare, piuttosto che in funzione dei soli dati di partenza disponibili In un DW di un supermercato, scegliamo di modellare il processo di vendita: Quali prodotti vengono venduti in quale negozio, in quali giorni e secondo quali promozioni 1/24/ /24/ Identificazione di fatti e dimensioni, e della loro granularita Esempio Linea guida 2: il modello dimensionale deve gestire l informazione piu granulare possibile richiesta dal processo di business I dati atomici sono quelli che non possono essere ulteriormente suddivisi Nell esempio del supermercato: il dato atomico e una singola voce di spesa di una transazione di cassa Transazione = carrello che attraversa la cassa Voce dispesa= singolotipoprodottosulcarrello(es. Bottiglia di olio Spremi, che il cliente puo aver acquistato in quantita pari a una o piu ) codice sesso anno nascita città residenza Cliente Occupazione percentuale tempo marca categoria Articolo Vendita Negozio codice prezzo costo scontrino data numero pezzi incasso città 1/24/ /24/
20 Due soluzioni 3.2 Progettazione logico fisica Modello Star schema Relational OLAP (ROLAP) Modello Cube Multidimensional OLAP (MOLAP) 1/24/ /24/ a. Scelta Relational OLAP (ROLAP) Utilizza DBMS relazionale o esteso per memorizzare e gestire i dati del data warehouse SQL strumento principale elevata scalabilità Vista materializzata E definita come un qualunque risultato di interrogazione che si decide di memorizzare permanentemente, piuttosto che ricostruirlo ogni volta in risposta a una nuova interrogazione Nel relational OLAP una vista materializzata e una relazione, risultato di una aggregazione sullo star schema base e/o su un insieme di viste. 1/24/ /24/ Progettazione logica con Relational OLAP si parte dallo star schema (o snowflake) Schema star (o schema snowflake) Progettazione logica Una tabella per la tabella dei fatti + Una tabella per ogni tabella delle dimensioni dello star schema + Un insieme di viste materializzate 1/24/ Scelta tra star e snowflake Nel caso star privilegiamo la disponibilita delle tabelle dimensioni gia aggregate, al costo della ridondanza (non normalizzazione) Nel caso snowflake privilegiamo l occupazione di memoria a scapito di un maggior costo nel calcolo delle interrogazioni Tradeoff spazio/tempo 1/24/
21 3.2.b Multidimensional OLAP (MOLAP) I dati sono fisicamente rappresentati sotto forma di cubo multidimensionale Indicizzazione veloce a dati riassuntivi pre-calcolati Ma: Dati sparsi difficili da gestire (molti ALL ) Memoria sottoutilizzata no interfaccia SQL file molto grandi limitazioni a circa 10GB (problemi scalabilità) Vista materializzata E definita come un qualunque risultato di interrogazione che si decide di memorizzare permanentemente, piuttosto che ricostruirlo ogni volta in risposta a una nuova interrogazione Nel multidimensional OLAP una vista materializzata e un cuboide 1/24/ /24/ Progettazione logica con multidimensional OLAP si parte dallo schema a cubo Schema a cubo Materializzazioni del data cube Per il calcolo efficiente dei data cubes, sono possibili diverse strategie: Progettazione logica Materializza ogni cuboide (materializzazione completa) nessun cuboide (materializzazione nulla) o qualche cuboide (materializzazione parziale) Cubo base + un insieme di viste materializzate (k cubodi) 1/24/ Selezione dei cuboidi da materializzare Basata sulla dimensione, condivisione dei cubi dalle diverse interrogazioni, frequenza di accesso, ecc. 1/24/ Scelta delle viste materializzate in entrambi i casi Strumento: costruzione del reticolo delle interrogazioni e delle viste Query 1 Query 1 Query 1 Vista 1 Calcolabile da Calcolata da Vista 2 Vista 3 Vista 4 Insieme di tabelle (o cubo base) 1/24/ CLIENTE CodCliente Sesso Occupazione Anno nascita Città nascita Provincia nascita Regione nascita 3.2 Progettazione logico fisica Esempio ARTICOLO CodArticolo Marca Categoria Nome VENDITA CodArticolo CodCliente CodTempo CodNegozio Incasso NEGOZIO CodNegozio Indirizzo Città Provincia Regione TEMPO CodTempo Giorno Mese Trimestre Anno 1/24/
22 Progettazione fisica in ambiente Rolap Indice bitmap per l attributo Model Strumenti: indici bitmap e indici di join Vediamo gli indici bitmap Consentono una implementazione efficiente delle congiunzioni o disgiunzioni nelle selezioni Rappresentano ciascun attributo di selezione che abbia nel dominio di definizione n valori, tramite n vettori di k bit dove k e il numero dei record della tabella su cui fare selezioni. Nell esempio SALES, ad esempio il vettore quello associato al valore del modello Ford, avra in posizione i il valore 1 se l i-esimo record ha come modello il valore Ford, 0 altrimenti) Es l intersezione si effettua tramite and di due vettori 1/24/ Ford SALES Model Year Color Sales Chevy Chevy 1990 red 5 Chevy 1990 white 87 0 Chevy 1990 blue 62 1 Chevy 1991 red 54 0 Chevy 1991 white 95 1 Chevy 1991 blue 49 0 Chevy 1992 red 31 1 Chevy 1992 white 54 Chevy 1992 blue 71 Ford 1990 red 64 Ford 1990 white 62 Ford 1990 blue 63 1 Ford 1991 red 52 Ford 1991 white 9 0 Ford 1991 blue 55 Ford 1992 red 27 Ford 1992 white 62 Ford 1992 blue 39 1/24/ Confronto MOLAP - ROLAP Confronto ROLAP & MOLAP MOLAP - Multidimensional OLAP Dati memorizzati in multidimensional cube Richiede trasformazioni dei dati Dati disponibili per l analisi direttamente dai cube analytical processing piu veloce Limitazioni sulle dimensioni dei cubes ROLAP - Relational OLAP Dati memorizzati in relational database come cubes virtuali Non richiede trasformazioni dei dati Dati recuperati tramite SQL per l analisi analytical processing piu lento Nessuna limitazione sulle dimensioni dei cubes Performance Query: MOLAP Caricamento: ROLAP Analisi: MOLAP Dimensione DW: ROLAP MOLAP: problema sparsità Flessibilità nello schema: ROLAP MOLAP: minor numero di dimensioni ammesse 1/24/ Una semplice metodologia di progetto Uno studio di caso Scopi: Mettere in evidenza gli aspetti legati alla scelta delle dimensioni Confrontare la soluzione star schema con la soluzione snowflake schema 1/24/ /24/
23 Case study: progetto di un DW per un supermercato Scenario: Una catena di supermercati ha 100 negozi sparsi su un era geografica che comprende 5 zone Ogni supermercato consiste di un insieme di dipartimenti e gestisce circa prodotti sugli scaffali I prodotti sono chiamati SKU (stock keeping units) Sono circa Case study: progetto di un DW per un supermercato I dati vengono raccolti: Alla cassa, tramite scan dei bar codes All ingresso in magazzino Il sistema di supporto alle decisioni ha come problema principale decidere prezzi e promozioni sui prodotti 1/24/ /24/ Passo di design 1: scelta del processo business su cui prendere decisioni Linea guida 1: Un DW o Data Mart dovrebbe cogliere le esigenze di uno o piu processi aziendali Il DW va progettato in funzione del processo da supportare, piuttosto che in funzione dei soli dati di partenza disponibili Nel nostro esempio, scegliamo di modellare il processo di vendita: Quali prodotti vengono venduti in quale negozio, in quali giorni e secondo quali promozioni Passo di design 2: scelta della granularita dei fatti e delle loro dimensioni Linea guida 2: il modello dimensionale deve gestire l informazione piu granulare possibile richiesta dal processo di business I dati atomici sono quelli che non possono essere ulteriormente suddivisi Nel nostro esempio: il dato atomico e una singola voce di spesa di una transazione di cassa Transazione = carrello che attraversa la cassa Voce dispesa= singolotipoprodottosulcarrello(es. Bottiglia di olio Spremi, che il cliente puo aver acquistato in quantita pari a una o piu ) 1/24/ /24/ Passo di design 3: Scelta delle dimensioni N.B. TBD significa to be done, ancora da fare, da espandere Le dimensioni primarie seguono la granularita dei fatti: Data, prodotto, negozio Altre dimensioni di interesse: Promozione associata alla vendita Passo di design 4: scelta delle misure (nei fatti) Le quantita misurabili seguono la definizione dei fatti Quantita venduta della voce Prezzo unitario della voce venduta Prezzo totale della voce = quantita x prezzo unitario Costo unitario al venditore 1/24/ /24/
24 Misure additive e non-additive - 1 Le quantita individuate sono in genere additive: La somma di quantita additive e valida per qualunque selezione dei valori delle dimensioni Ad es le quantita vendute (Sales quantity) su ogni negozio, o su determinati prodotti per determinati negozi, ecc. Misure additive e non-additive - 2 Non sempre le quantita sono additive: Es il margine lordo (Gross profit Dollar Amount) non e additivo perche e una funzione di altre quantita (rapporto tra prezzo e costo) Dato il margine lordo su due insiemi di negozi, non si puo calcolare il margine lordo sulla loro unione 1/24/ /24/ Dimensionamento delle tabelle - 1 Dimensione temporale: Date - Data Se un record della dimensione Date rappresenta un giorno, possiamo rappresentare 10 anni di vendite con circa record Una dimensione accettabile della tabella Dimensionamento delle tabelle - 2 Dimensione Product - Prodotto: al min record, spesso molti di piu Deve contenere attributi descrittivi di ogni SKU La gerarchia delle merci, per es.: SKU marca categoria dipartimento Normalmente, circa 50 attributi descrittivi 1/24/ /24/ Esempio di tabelle Date e Prodotto Dimensionamento delle tabelle - 3 Rappresentazione delle promozioni in corso La meno ovvia e forse la piu interessante delle dimensioni L analisi serve infatti a chiarire se la promozione e efficace Possiamo scegliere, ad esempio: Media type, mezzo di comunicazione utilizzato Begin date End date Ecc. 1/24/ /24/
25 Lo schema proposto (vista parziale) Snowflaking e normalizzazione La dimensione Prodotto non e normalizzata: esistono dipendenze funzionali tra alcuni attributi: SKU department, SKU tipo package, ecc. Su un insieme di SKU, ci sono solo 50 dipartimenti Quindi ogni valore di dipartimento e ripetuto volte nella tabella Un possibile modello normalizzato per la dimensione Product e il seguente: 1/24/ /24/ Considerazioni sulla normalizzazione - 1 Spesso inutile e inefficiente: La rappresentazione e piu complessa e meno intuitiva da comprendere Cstringe a joins multipli che complicano il lavoro dell ottimizzatore Considerazioni sulla normalizzazione - 2 Lo spazio risparmiato e minimo: Se il valore di dipartimento occupa 20 bytes, e viene sostituito con una chiave di 2 bytes nello schema normalizzato, risparmiamo circa 2.7M La tabella dei fatti ha dimensioni dell ordine dei GB La normalizzazione interviene solo sulle tabelle tabelle dimensionali, che sono quasi sempre ordini di grandezza piu piccole rispetto alle tabelle dei fatti Rende impossibile l uso di indici bitmap (vedi in seguito), usati per indicizzare campi con cardinalita di dominio bassa 1/24/ /24/ Architettura - 2 Resti 1/24/ /24/
26 Esempio di visualizzazione Blue ALL Red 1/24/
Basi di Dati Complementi Esercitazione su Data Warehouse
Sommario Basi di Dati Complementi Esercitazione su Data Warehouse 1. Riassunto concetti principali dalle slide della lezione di teoria 2.Studio di caso : progettazione di un Data Warehouse di una catena
DettagliIntroduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse
Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta
DettagliData Warehousing (DW)
Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale
DettagliAnalisi dei Dati. Lezione 10 Introduzione al Datwarehouse
Analisi dei Dati Lezione 10 Introduzione al Datwarehouse Il Datawarehouse Il Data Warehousing si può definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il
DettagliData Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale
Argomenti della lezione Data Warehousing Parte II Analisi multidimensionale richiami sul data warehousing organizzazione di un data warehouse l analisi multidimensionale data warehousing e internet strumenti
DettagliData warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni
Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello
DettagliCosa è un data warehouse?
Argomenti della lezione Data Warehousing Parte I Introduzione al warehousing cosa è un data warehouse classificazione dei processi aziendali sistemi di supporto alle decisioni elaborazione OLTP e OLAP
DettagliData warehouse Introduzione
Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi
DettagliRassegna sui principi e sui sistemi di Data Warehousing
Università degli studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Rassegna sui principi e sui sistemi di Data Warehousing Tesi di laurea di: Emanuela Scionti Relatore: Chiar.mo Prof.Montesi
DettagliData Warehousing: concetti base e metodologie
Data Warehousing: concetti base e metodologie Paolo Atzeni (con la collaborazione di Luca Cabibbo e Riccardo Torlone) Università di Roma Tre Dipartimento di Informatica e Automazione atzeni@dia.uniroma3.it
DettagliSISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione
SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi
DettagliBreve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2)
Tecnologie per i sistemi informativi Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2) Letizia Tanca lucidi tratti dal libro: Atzeni, Ceri, Paraboschi, Torlone Introduzione
DettagliLa Metodologia adottata nel Corso
La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema
DettagliStefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse
Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le
DettagliOrganizzazione degli archivi
COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i
DettagliData warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa
DettagliDominio applicativo. Analisi e ricognizione delle fonti dati
Dominio applicativo La Società chiamata StraSport, si occupa di vendite all ingrosso di articoli sportivi. Ha agenzie distribuite sul territorio italiano che gestiscono le vendite, ognuna di esse gestisce
DettagliBasi di Dati Relazionali
Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica
DettagliCORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)
Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni
DettagliDatabase. Si ringrazia Marco Bertini per le slides
Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida
DettagliIntroduzione ad OLAP (On-Line Analytical Processing)
Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line
Dettagli1. BASI DI DATI: GENERALITÀ
1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente
Dettaglidatabase: modello entityrelationship
Insegnamento di Informatica CdS Scienze Giuridiche A.A. 2007/8 database: modello entityrelationship Prof.Valle D.ssaFolgieri Lez7 25.10.07 Trattamento dati. Database: modello entity-relationship 1 Fasi
DettagliLe Basi di Dati. Le Basi di Dati
Le Basi di Dati 20/05/02 Prof. Carlo Blundo 1 Le Basi di Dati Le Base di Dati (database) sono un insieme di tabelle di dati strutturate in maniera da favorire la ricerca di informazioni specializzate per
DettagliProgettaz. e sviluppo Data Base
Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo
DettagliPROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE
Tesi in: ARCHITETTURA DEI SISTEMI INFORMATIVI PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE IN UN AMBIENTE DI DISTRIBUZIONE FARMACEUTICA RELATORE: Prof. Crescenzio Gallo LAUREANDO: Alessandro Balducci
DettagliLezione 1. Introduzione e Modellazione Concettuale
Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and
DettagliArchitetture per l analisi di dati
Architetture per l analisi di dati Basi di dati: Architetture e linee di evoluzione - Seconda edizione Capitolo 8 Appunti dalle lezioni Motivazioni I sistemi informatici permettono di aumentare la produttività
DettagliData warehousing con SQL Server
Data warehousing con SQL Server SQL Server è un RDBMS (Relational DataBase Management System) Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data warehousing
DettagliCorso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati
Corso di Access Modulo L2A (Access) 1.1 Concetti di base 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione Un ambiente DBMS è un applicazione che consente
DettagliStrutturazione logica dei dati: i file
Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer
DettagliDATABASE RELAZIONALI
1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.
DettagliCiclo di vita dimensionale
aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema
DettagliProgettazione concettuale
Progettazione concettuale Strategie top-down A partire da uno schema che descrive le specifiche mediante pochi concetti molto astratti, si produce uno schema concettuale mediante raffinamenti successivi
DettagliLa Progettazione Concettuale
La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio
DettagliProva scritta del corso di Basi di dati attive 17 Dicembre 1999. Agenzia
Prova scritta del corso di Basi di dati attive 17 Dicembre 1999 Si desidera automatizzare la gestione dei banchetti organizzati da un agenzia di pubbliche relazioni. Le specifiche del sistema informativo,
DettagliProgettazione di Basi di Dati
Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello
DettagliOrganizzazione delle informazioni: Database
Organizzazione delle informazioni: Database Laboratorio Informatico di base A.A. 2013/2014 Dipartimento di Scienze Aziendali e Giuridiche Università della Calabria Dott. Pierluigi Muoio (pierluigi.muoio@unical.it)
DettagliIntroduzione alla teoria dei database relazionali. Come progettare un database
Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare
DettagliLorenzo Braidi. Database design. Libro_datadesign.indb 1 23-11-2004 10:06:17
Lorenzo Braidi Database design Libro_datadesign.indb 1 23-11-2004 10:06:17 Sommario Introduzione...XI Capitolo 1 Le basi di dati relazionali... 1 Le basi di dati... 1 Un po di storia... 2 I database gerarchici...
DettagliSQL/OLAP. Estensioni OLAP in SQL
SQL/OLAP Estensioni OLAP in SQL 1 Definizione e calcolo delle misure Definire una misura significa specificare gli operatori di aggregazione rispetto a tutte le dimensioni del fatto Ipotesi: per ogni misura,
DettagliControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi
ControlloCosti Cubi OLAP I cubi OLAP Un Cubo (OLAP, acronimo di On-Line Analytical Processing) è una struttura per la memorizzazione e la gestione dei dati che permette di eseguire analisi in tempi rapidi,
Dettaglimarca (1,n) (1,1) nome prezzou prodotto nome responsabile quantità nome datai dataf (0,n) vendite (0,n) (0,n) (0,n) tempo acquisti quantità (0,n)
marca (1,n) di descrizione (1,1) prodotto (1,1) in (1,n) categoria città (1,n) (1,n) nella indirizzo responsabile quantità (1,1) supermercato vendite ricavo promozione datai dataf %sconto costo acquisti
DettagliPer capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.
DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del
DettagliGoverno Digitale a.a. 2011/12
Governo Digitale a.a. 2011/12 I sistemi di supporto alle decisioni ed il Data Warehouse Emiliano Casalicchio Agenda Introduzione i sistemi di supporto alle decisioni Data warehouse proprietà architettura
DettagliDispensa di database Access
Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di
DettagliPianificazione del data warehouse
Pianificazione del data warehouse Dalla pianificazione emergono due principali aree d interesse: area commerciale focalizzata sulle agenzie di vendita e area marketing concentrata sulle vendite dei prodotti.
DettagliIl database management system Access
Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio
DettagliUtilizzando Microsoft Access. Si crea la tabella Anagrafica degli alunni,le Materie e i voti si mettono alcuni campi
Vogliamo creare una struttura per permettere di memorizzari i voti della classe in tutte le materie Per fare questo untilizziamo tre tabelle Alunni,materie,voti Alunni Materie Voti Creo un record per ogni
DettagliData warehousing Mario Guarracino Data Mining a.a. 2010/2011
Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo
DettagliRaggruppamenti Conti Movimenti
ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli
DettagliBusiness Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.
soluzioni di business intelligence Revorg Business Intelligence Utilizza al meglio i dati aziendali per le tue decisioni di business Business Intelligence Revorg Roadmap Definizione degli obiettivi di
DettagliLezione 2. Il modello entità relazione
Lezione 2 Il modello entità relazione Pag.1 Introduzione alla progettazione delle basi di dati 1. Analisi dei requisiti Quali sono le entità e le relazioni dell organizzazione? Quali informazioni su queste
DettagliRegione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da
ARPA Fonte Dati Regione Toscana Redatto da L. Folchi (TAI) Rivisto da Approvato da Versione 1.0 Data emissione 06/08/13 Stato DRAFT 1 Versione Data Descrizione 1,0 06/08/13 Versione Iniziale 2 Sommario
DettagliMODULO 5 Appunti ACCESS - Basi di dati
MODULO 5 Appunti ACCESS - Basi di dati Lezione 1 www.mondopcnet.com Modulo 5 basi di dati Richiede che il candidato dimostri di possedere la conoscenza relativa ad alcuni concetti fondamentali sui database.
DettagliIntroduzione al data base
Introduzione al data base L Informatica è quella disciplina che si occupa del trattamento automatico dei dati con l ausilio del computer. Trattare i dati significa: raccoglierli, elaborarli e conservarli
DettagliBASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone
BASI DI DATI per la gestione dell informazione Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone Libro di Testo 22 Chianese, Moscato, Picariello e Sansone BASI DI DATI per la Gestione dell
DettagliCapitolo 13. Interrogare una base di dati
Capitolo 13 Interrogare una base di dati Il database fisico La ridondanza è una cosa molto, molto, molto brutta Non si devono mai replicare informazioni scrivendole in più posti diversi nel database Per
DettagliCorso di Basi di Dati e Conoscenza
Corso di Basi di Dati e Conoscenza Gestione dei Dati e della Conoscenza Primo Emicorso - Basi di Dati Roberto Basili a.a. 2012/13 1 Obbiettivi Formativi Scenario Le grandi quantità di dati accumulate nelle
DettagliData warehousing con SQL Server
Data warehousing con SQL Server SQL Server è un RDBMS (Relational DataBase Management System) Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data warehousing
DettagliISTITUTO TECNICO ECONOMICO MOSSOTTI
CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche
DettagliEsercizio data base "Biblioteca"
Rocco Sergi Esercizio data base "Biblioteca" Database 2: Biblioteca Testo dell esercizio Si vuole realizzare una base dati per la gestione di una biblioteca. La base dati conterrà tutte le informazioni
DettagliSistemi per la gestione di database: MySQL ( )
Sistemi per la gestione di database: MySQL ( ) Relational Database e Relational Database Management System Un database è una raccolta di dati organizzata in modo da consentire l accesso, il reperimento
DettagliI database relazionali (Access)
I database relazionali (Access) Filippo TROTTA 04/02/2013 1 Prof.Filippo TROTTA Definizioni Database Sistema di gestione di database (DBMS, Database Management System) Sistema di gestione di database relazionale
DettagliBasi di dati 9 febbraio 2010 Compito A
Basi di dati 9 febbraio 2010 Compito A Domanda 0 (5%) Leggere e rispettare le seguenti regole: Scrivere nome, cognome, matricola (se nota), corso di studio e lettera del compito (ad esempio, A) sui fogli
DettagliESEMPI DI QUERY SQL. Esempi di Query SQL Michele Batocchi AS 2012/2013 Pagina 1 di 7
ESEMPI DI QUERY SQL Dati di esempio... 2 Query su una sola tabella... 2 Esempio 1 (Ordinamento)... 2 Esempio 2 (Scelta di alcune colonne)... 3 Esempio 3 (Condizioni sui dati)... 3 Esempio 4 (Condizioni
DettagliProgettazione di una base di dati Ufficio della Motorizzazione
Corso di Gestione dell Informazione Studenti NON frequentanti A.A. 2008/2009 1 Scopo del progetto Progettazione di una base di dati Ufficio della Motorizzazione Si vuole realizzare un applicazione base
DettagliProgetto: ARPA Fonte Dati. ARPA Fonte Dati. Regione Toscana. Manuale Amministratore
ARPA Fonte Dati Regione Toscana 1 Redatto da L. Folchi (TAI) Rivisto da Approvato da Versione 1.1 Data emissione 09/10/13 Stato FINAL 2 Versione Data Descrizione 1,0 06/08/13 Versione Iniziale 1.1 09/10/2013
Dettagli1. Definizione di budget e collocazione nel processo di programmazione e controllo
21 Capitolo II Il budget 1. Definizione di budget e collocazione nel processo di programmazione e controllo Il budget - e' un programma delle operazioni di gestione da compiere in un anno, finalizzato
DettagliAccess. P a r t e p r i m a
Access P a r t e p r i m a 1 Esempio di gestione di database con MS Access 2 Cosa è Access? Access e un DBMS che permette di progettare e utilizzare DB relazionali Un DB Access e basato sui concetti di
DettagliDalla progettazione concettuale alla modellazione di dominio
Luca Cabibbo A P S Analisi e Progettazione del Software Dalla progettazione concettuale alla modellazione di dominio Capitolo 91 marzo 2015 Se qualcuno vi avvicinasse in un vicolo buio dicendo psst, vuoi
DettagliLezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing
Lezione 3 Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing 27/02/2010 1 Modello multidimensionale Nasce dall esigenza
DettagliSistema operativo: Gestione della memoria
Dipartimento di Elettronica ed Informazione Politecnico di Milano Informatica e CAD (c.i.) - ICA Prof. Pierluigi Plebani A.A. 2008/2009 Sistema operativo: Gestione della memoria La presente dispensa e
DettagliIntroduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni
Introduzione Ai Data Bases Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni I Limiti Degli Archivi E Il Loro Superamento Le tecniche di gestione delle basi di dati nascono
DettagliArchivi e database. Prof. Michele Batocchi A.S. 2013/2014
Archivi e database Prof. Michele Batocchi A.S. 2013/2014 Introduzione L esigenza di archiviare (conservare documenti, immagini, ricordi, ecc.) è un attività senza tempo che è insita nell animo umano Primi
DettagliSistemi informativi secondo prospettive combinate
Sistemi informativi secondo prospettive combinate direz acquisti direz produz. direz vendite processo acquisti produzione vendite INTEGRAZIONE TRA PROSPETTIVE Informazioni e attività sono condivise da
DettagliIntroduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico
Introduzione alle basi di dati Introduzione alle basi di dati Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS Gestione delle
DettagliInformatica (Basi di Dati)
Corso di Laurea in Biotecnologie Informatica (Basi di Dati) Modello Entità-Relazione Anno Accademico 2009/2010 Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati 1, Prof.
DettagliIntroduzione ai Sistemi di Gestione di Basi di Dati XML
Introduzione ai Sistemi di Gestione di Basi di Dati Introduzione ai Sistemi di Gestione di Basi di Dati Obiettivi Memorizzare ed estrarre documenti da RDBMS. Trasformare dati tabellari in dati e viceversa.
DettagliModello Relazionale dei DBMS - Vincoli Tradizionalmente, esistono quattro modelli logici: Gerarchico Reticolare Relazionale A oggetti XML I modelli
Modello Relazionale dei DBMS - Vincoli Tradizionalmente, esistono quattro modelli logici: Gerarchico Reticolare Relazionale A oggetti XML I modelli gerarchico e reticolare sono più vicini alle strutture
DettagliOn Line Analytical Processing
On Line Analytical Processing Data integra solitamente Warehouse(magazzino dati) èun sorgenti un unico schema globalel informazione estratta da piu puo replicazioneai puo essere èinterrogabile, non modificabile
DettagliIl modello dimensionale
aprile 2012 1 L organizzazione dei dati del data warehouse costituisce la pietra angolare dell intero sistema DW/BI le applicazioni BI, di supporto alle decisioni, accedono i dati direttamente dal DW l
DettagliLA NORMALIZZAZIONE. Introduzione
LA NORMALIZZAZIONE Introduzione La normalizzazione e' una tecnica di progettazione dei database, mediante la quale si elimina la rindondanza dei dati al fine di evitare anomalie nella loro consistenza
DettagliBasi di Dati e Microsoft Access
Basi di Dati e Microsoft Access Lun: 16-18 e Mer: 14-17 Alessandro Padovani padoale@email.it Database: definizione Un database (DB) è una collezione di informazioni organizzata in gruppi, che consentono
DettagliData warehousing con SQL Server
Data warehousing con SQL Server! SQL Server è un RDBMS (Relational DataBase Management System)! Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data
DettagliMODELLO RELAZIONALE. Introduzione
MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)
DettagliIDENTIFICAZIONE DEI BISOGNI DEL CLIENTE
IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal
DettagliIntroduzione al corso
Introduzione al corso Sistemi Informativi L-B Home Page del corso: http://www-db.deis.unibo.it/courses/sil-b/ Versione elettronica: introduzione.pdf Sistemi Informativi L-B Docente Prof. Paolo Ciaccia
DettagliBasi di dati I Soluzione Quinto Homework del 9 gennaio 2013
Basi di dati I Soluzione Quinto Homework del 9 gennaio 2013 Domanda 1 (50%) Si consideri la seguente schematizzazione di alcuni tour organizzati da un agenzia turistica: Tour N. 2345 Nome: Marocco Partenza:
DettagliB C I un altro punto di vista Introduzione
Bollicine Community B C Intelligence B C I un altro punto di vista Introduzione Graziano Guazzi General Manager Data Flow Settembre 2007 pag, 1 Cosa misurare La definizione di quale domanda di mercato
DettagliDIPARTIMENTO IMPIEGATO PROGETTO SEDE. (0,1) (1,1) DIREZIONE Cognome. Codice. Telefono (0,1) (1,N) AFFERENZA. Stipendio (0,N) Nome (1,1) Età
PROGETTAZIONE LOGICA 7í0 Progettazione logica Obiettivo: ëtradurre" lo schema concettuale in uno schema logico che rappresenti gli stessi dati in maniera corretta ed eæciente Input: Output: æ schema concettuale
DettagliMon Ami 3000 Varianti articolo Gestione di varianti articoli
Prerequisiti Mon Ami 3000 Varianti articolo Gestione di varianti articoli L opzione Varianti articolo è disponibile per le versioni Azienda Light e Azienda Pro e include tre funzionalità distinte: 1. Gestione
DettagliCaratteristiche principali. Contesti di utilizzo
Dalle basi di dati distribuite alle BASI DI DATI FEDERATE Antonella Poggi Dipartimento di Informatica e Sistemistica Antonio Ruberti Università di Roma La Sapienza Anno Accademico 2006/2007 http://www.dis.uniroma1.it/
DettagliCosa è un foglio elettronico
Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti
Dettagliper immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1
Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Una tabella Pivot usa dati a due dimensioni per creare una tabella a tre dimensioni, cioè una tabella
DettagliRegistratori di Cassa
modulo Registratori di Cassa Interfacciamento con Registratore di Cassa RCH Nucleo@light GDO BREVE GUIDA ( su logiche di funzionamento e modalità d uso ) www.impresa24.ilsole24ore.com 1 Sommario Introduzione...
DettagliVolumi di riferimento
Simulazione seconda prova Esame di Stato Gestione di un centro agroalimentare all ingrosso Parte prima) Un nuovo centro agroalimentare all'ingrosso intende realizzare una base di dati per l'attività di
DettagliBasi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS
Basi di Basi di (Sistemi Informativi) Sono una delle applicazioni informatiche che hanno avuto il maggiore utilizzo in uffici, aziende, servizi (e oggi anche sul web) Avete già interagito (magari inconsapevolmente)
DettagliLezione V. Aula Multimediale - sabato 29/03/2008
Lezione V Aula Multimediale - sabato 29/03/2008 LAB utilizzo di MS Access Definire gli archivi utilizzando le regole di derivazione e descrivere le caratteristiche di ciascun archivio ASSOCIAZIONE (1:1)
DettagliRiepilogo delle modifiche di PA-DSS dalla versione 2.0 alla 3.0
Settore delle carte di pagamento (PCI) Standard di protezione dei dati per le applicazioni di pagamento () Riepilogo delle modifiche di dalla versione 2.0 alla 3.0 Novembre 2013 Introduzione Il presente
Dettagli