Lezione 2 Dati e Architetture per il Data Warehousing ETL 27/02/2010 1
Introduzione al DW: Dati I dati possono essere classificati in vari modi nel DW si adotta una classificazione a tre assi: significato business data dati come prodotto metadati struttura strutturati non-strutturati scopo pubblici personali 27/02/2010 2
Introduzione al DW: Dati Uso nell organizzazione dati operazionali dati informazionali Granularità dei dati business dati di dettaglio dati aggregati 27/02/2010 3
Introduzione al DW: Dati Tipi di elaborazione read/write data read-only data Caratterizzazione temporale dati correnti snapshots dati periodici 27/02/2010 4
Introduzione al DW: Dati Caratterizzazione Funzionale: Dati real-time dati operazionali up-to-date utilizzati per il funzionamento dell organizzazione ed gestiti attraverso transazioni R/W tipicamente predefinite e semplici Dati derivati dati organizzati a snapshot o come dati periodici In forma dettagliata o aggregata che sono derivati, applicando un qualche procedimento di calcolo, dai dati real-time utilizzati tipicamente per il supporto alle decisioni 27/02/2010 5
Introduzione al DW: Dati Dati riconciliati forma di dati derivati, storicizzati e dettagliati il cui scopo è quello di garantire una visibilità univoca di tutte le informazioni presenti nell organizzazione; vengono periodicamente prodotti dai dati real-time attraverso procedure di ripulitura ed integrazione Dati business non-strutturati immagini, testi ed, in generale, qualsiasi forma di registrazione cui non sia facilmente ascrivibile una struttura in termini di campi/tipi 27/02/2010 6
Introduzione del DW: Dati Alcuni esempi... Dati real-time anagrafiche clienti conti bancari fatturazioni/magazzino Dati derivati dati aggregati di vendita analisi di mercato indicatori economici chiave 27/02/2010 7
Introduzione del DW: Dati un DW fa riferimento soprattutto a dati strutturati e pubblici sia di tipo business che metadati non-strutturati, pubblici di tipo metadati dati non-strutturati pubblici di tipo business (soprattutto in tempi molto recenti, con l affermarsi di tecnologie evolute di estrazione semantica di informazioni) utilizza (o dovrebbe utilizzare) molto limitatamente dati privati 27/02/2010 8
Introduzione del DW: Dati Le organizzazioni tipicamente possiedono altri dati che non entrano direttamente a far parte del DW Questi includono, come esempi importanti, i dati come prodotto, i dati esterni ed i dati che risiedono e vengono elaborati in maniera personale 27/02/2010 9
Introduzione del DW: Dati i dati esterni e quelli personali, in certi casi, possono essere utili ai fini dell assunzione di decisioni, ma il loro scopo rimane al di fuori dei confini del DW i dati esterni, in particolare, rivestono sempre maggiore importanza (ad es., fonti informative su andamenti di mercato su Web), tuttavia l accesso ad essi ed, ancora di più, la loro aggiunta ai dati gestiti dal DW deve essere attentamente regolata al fine di evitare l insorgere di problemi di consistenza e qualità delle informazioni fornite agli utenti del DW 27/02/2010 10
Architetture Data Warehouse Descrivono la struttura generale del DW Diversamente dal caso dei sistemi operazionali, l enfasi in questo caso di concentra quasi esclusivamente sulla progettazione della struttura dei dati (e non delle funzioni che li utilizzano) 27/02/2010 11
Architetture Data Warehouse Caratteristiche essenziali: Separazione tra elaborazione analitica e transazionale Scalabilità di fronte alla crescita nel tempo dei volumi di dati Estendibilità nei confronti di nuove tecnologie e applicazioni Sicurezza dei dati memorizzati Amministrabilità 27/02/2010 12
Architetture Data Warehouse le varie architetture si distinguono in base al numero di livelli che le caratterizzano questa caratterizzazione è indipendente, in una certa misura, dalla organizzazione fisica che viene adottata per i dati ed, in particolare, dalla scelta di realizzare ogni livello in modalità materializzata ovvero virtuale 27/02/2010 13
Architetture DW: 1 livello Dati operazionali MIDDLEWARE Strumenti di reportistica Strumenti OLAP Livello delle sorgenti Livello del warehouse Livello di analisi Vantaggi: Minimizzazione del volume di dati memorizzati Sviluppo rapido e costi ridotti Evita il problema della sincronizzazione dei dati ripetuti Svantaggi: Esecuzione ripetuta della stessa query Mancanza di storicizzazione dei dati Contesa sui dati tra sistemi operazionali e sistemi decisionali 27/02/2010 14
Architetture DW: 1 livello lo sviluppo di un DW che si proponga di interfacciare una sola sorgente operazionale è, in genere, molto meno impegnativo rispetto al caso in cui ci siano più fonti coinvolte DW virtuale : termine con cui si indica un DW ad un solo livello in cui l utente può accedere più sorgenti operazionali attraverso strati di middleware che realizzano i necessari mapping tra dati 27/02/2010 15
Architetture DW: 2 livelli Meta-dati Dati operazionali Data mart Report Dati esterni ETL Data Warehouse Data mining OLAP Livello delle sorgenti Livello di alimentazione Livello del warehouse Livello di analisi Vantaggi: Soluzione del problema della concorrenza tra applicazioni operazionali e decisionali Diverse derivazioni degli stessi dati Svantaggi: Alto livello di duplicazione dei dati, spesso incontrollato 27/02/2010 16
Architettura DW: 2 livelli In questa architettura la complessità del sistema è, in larga misura, nascosta Nonostante i suoi difetti è, storicamente, una delle architetture maggiormente utilizzate, anche perché ben si presta a sviluppi di tipo pilota, che coinvolgono una singola porzione dell organizzazione Data mart : termine con il quale si indica comunemente un implementazione a due livelli con un dominio applicativo molto ben definito e ristretto 27/02/2010 17
Architetture DW: 3 livelli Meta-dati Dati operazionali Data mart Dari Riconciliati Dati esterni ETL Data Warehouse Report Data mining OLAP Livello delle sorgenti Livello di alimentazione Livello dei dati riconciliati Livello del warehouse Livello di analisi Vantaggi: Dati storici memorizzati nel livello dei dati riconciliati e conseguente semplificazione dei sistemi operazionali Notevole riduzione dei problemi di duplicazione dei dati La riconciliazione è effettuata una sola volta Svantaggi: Inadeguatezza del modello nel caso di sorgenti operazionali particolarmente eterogenee fra loro 27/02/2010 18
Architetture DW: 3 livelli Il livello riconciliato è la realizzazione materializzata del modello dati che descrive l intera organizzazione L elevato livello di duplicazione in questa tipologia di architettura è più apparente che reale; in ogni caso, il costo in termini di spazio di memorizzazione è ampiamente ripagato in termini di efficienza, manutenibilità e controllabilità 27/02/2010 19
Architetture DW: 3 livelli La problematica principale di questa tipologia di architettura, dal punto di vista progettuale e realizzativo, consiste nella difficoltà della definizione del livello riconciliato La grande complessità di questo problema rende l architettura inadatta (salvo casi particolari) ad applicazioni di piccola dimensione Diventa, viceversa, l architettura di più conveniente nel caso di sistemi DW di dimensione significativa o che, comunque, coinvolgano più basi di dati sorgente eterogenee tra loro 27/02/2010 20
Strumenti ETL Extraction Transformation Loading Riconciliazione Ruolo: Alimentare il livello Dati Riconciliati Esauriente Di alta qualità 27/02/2010 21
Strumenti ETL Riconciliazione: Avviene in due occasioni Creazione del DW Aggiornamento del DW È l operazione più complessa e impegnativa 27/02/2010 22
Strumenti ETL Fasi della riconciliazione 1. 2. Estrazione Ripulitura Correzione Valori 3. Trasformazione Correzione Formato 4. Caricamento 27/02/2010 23
Strumenti ETL: Estrazione Fase di estrazione dei dati dalla sorgente Estrazione statica: popolamento iniziale del DW Estrazione incrementale: aggiornamento del DW, catturando solo i cambiamenti dall ultima estrazione Basata sul giornale (log) nel DBMS operazionale Guidata dalle sorgenti che notificano i cambiamenti (per es. trigger) 27/02/2010 24
Strumenti ETL: Pulitura Fase di ripulitura dei dati estratti Fase critica per migliorare la qualità dei dati Tipiche situazioni di dati sporchi: Dati duplicati Inconsistenze tra valori logicamente associati Dati mancanti Uso non previsto di un campo Valori impossibili Valori inconsistenti dovuti a diverse convenzioni o abbreviazioni Valori inconsistenti dovuti a errori di data entry 27/02/2010 25
Strumenti ETL: Pulitura Correzioni: Dizionari: correggere errori di scrittura, abbreviazioni, sinonimi Regole: (proprie del dominio applicativo) stabilire le corrette corrispondenze 27/02/2010 26
Strumenti ETL: Trasformazione Fase centrale del processo di riconciliazione Conversione dati: Formato Operazionale Formato DW Corrispondenza dei formati complicata dalla presenza di più sorgenti eterogenee Fase di integrazione 27/02/2010 27
Strumenti ETL: Trasformazione Situazioni tipiche: Testi liberi Formati differenti (per es. date) Funzionalità: Conversione e normalizzazione Matching tra campi equivalenti di diverse fonti Alimentazione: Denormalizzazione e Aggregazione 27/02/2010 28
Strumenti ETL: Caricamento Refresh Dati del DW integralmente riscritti sostituendo i precedenti Normalmente utilizzata solo per il popolamento iniziale, abbinata a estrazione statica Update Cambiamenti alle sorgenti aggiunti al DW, senza distruggere o alterare dati esistenti Normalmente utilizzata per l aggiornamento periodico del DW, abbinata a estrazione incrementale 27/02/2010 29