Datawarehouse Proge.azione logica
1) Modello a stella implementato 3
Semplici join permettono di ricostruire i fatti. Le tabelle dimensione sono generalmente denormalizzate: contengono le dipendenze funzionali delle gerarchie. La denormalizzazione sveltisce le interrogazioni. Generalmente le gerarchie non sono soggette a modifiche, quindi la denormalizzazione è ininfluente sulle modifiche. La denormalizzazione causa ridondanza, tuttavia di norma una dimensione ha un occupazione contenuta della memoria rispetto alla fact table. La sparsità non è un problema: nella fact table vengono memorizzate solo le combinazioni di chiavi corrispondenti ad informazioni esistenti. 4
2) Modello a snowflake 4
Modello a sowflakes implementato 5
Schema snowflake di Vendite ChiaveNegozio ChiaveData Data Mese Trimestre Anno Giorno Settimana Vacanza VENDITA ChiaveNegozio ChiaveData ChiaveProdotto QuantitàVenduta Incasso PrezzoUnitario NumeroClienti Negozio ChiaveCittà Responsabile Distretto ChiaveProdotto ChiaveCittà CittàNegozio RegioneNegozio StatoNegozio ChiaveCategoria Categoria Reparto ChiaveTipo Tipo ChiaveCategoria GruppoMarketing Prodotto ChiaveTipo Marca CittàMarca Dieta* 6
Schema snowflake Lo schema snowflake attenua la denormalizzazione delle dimensioni, riducendo lo spazio delle tabelle delle dimensioni a scapito del costo dei join. La parziale normalizzazione articola meglio le dimensioni che possono essere usate con maggior facilità da più fact table. NORMALIZZATO 1) no ridondanze, occupa meno spazio in memoria 2) molti join, quesry più complesse e più lente 3) possibile aggiornamento a catena 5
Warehouse database Stru.ura conce.uale: Schema a stella o a fiocco di neve Stars denormalizzato Simple Flat (no gerarchia) snowflakes normalizzato More complex Gerarchico (naturale modo di pensare dei manager) (+) piu veloci le query ( ) piu spazio in memoria (-) piu lente le query (+) aggiornamenti a catena (+) occupa meno spazio Federica Cena- 6
Data normalisacon ObieEvo: 1. Eliminare le duplicazioni non necessarie e incontrollate di dac (ridondanze) 2. Eliminare le dipendenze funzionali tra gli a.ribuc Federica Cena- 7
Data normalisacon Dipendenze funzionali X! y il valore di y dipende da x ci.a! regione il valore di regione dipende da ci.a cliente(ci(a, regione) Ogni volta che due clienc vivono nella stesso ci.à, allora vivono anche la stessa regione ci.a[torino]=regione[piemonte] Federica Cena- 8
Warehouse database 1. Tabella al centro dei fae, sui cui vengono eseguite tu.e le query Relazione 1:m con le altre dimensioni (parte m: tabella dei fae, parte 1 dimensione) 2. Time dimension obbligatori 3. Una misura singola non interessa: Le misure devono essere sommabili, solo su alcune dimensioni ha senso:costo ha senso su prodoe, ma non su tempo (a.ribuc semisommab) 4. Aggiungere dac ai precedenc (accodarli) non sovrascriverli Federica Cena- 9
Modello logico Prodo.o (id_prodo.o, nome) Punto_vendita (id_punto, ci.à, regione) Tempo (id_tempo,mese, anno) Vendite (id_prodo.o, id_punto, id_tempo, quan3tà) Federica Cena 10
Datawarehouse Operatori OLAP
OLAP p Operatori per fare analisi multidimensionale dei dati p Operatori OLAP n Roll-up: diminuisce il dettaglio, esegue aggregazioni delle misure per riduzione di dimensioni o per generalizzazione su valori della gerarchia (indicatori aggregati su regione, nazione) n Drill-down: aumenta il dettaglio della dimensione (zoom su città) 2
OLAP p Operatori per fare analisi multidimensionale dei dati p Operatori OLAP n Roll-up: restituisci la somma dei prodotti venduti in un determinato stato n Drill-down: restituisci la somma dei prodotti venduti in una specifica regione, provincia, città 3
OLAP 4
5
OLAP n Push: elimina una dimensionale, facendolo diventare una misura (es prodotto àdiventa misura: conteggio dei diversi tipi di prodotti venduti per città e mese) n Pull: inverso del push, trasforma una misura in una dimensione (poco usato) 6
OLAP p Slice e dice: operazioni di selezione e proiezione per estrarre piani o sottocubi 7
OLAP p Slice (affettare): n taglia una fetta di cubo, fissando il valore di una dimensione n valore delle vendite di un prodotto (prodotto=matite) in tutti i punti vendita in tutti i momenti 8
OLAP p Dice (taglia a cubetti): n n taglia il cubo fissando il valore di due o più dimensioni (sottocubo) valore delle vendite di un prodotto in un punto vendita in un particolare momento T 9
10
Esercizio n Creare lo schema concettuale e logico del data warehouse che descrive un assicurazione n Individuare Operazioni OLAP appropriate per il dw in oggetto: p Drill-down- roll-up p Dice-slice 11