Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs. OLAP Sistemi transazionali On-Line Transaction Processing (OLTP) Sistemi analitici On-Line Analytical Processing (OLAP) Profondamente diversi 4 1
OLTP vs. OLAP 5 6 7 8 2
9 10 OLTP vs. OLAP OLAP Principale modalità di uso dei dati di un DW Consente di analizzare ed esplorare i dati interattivamente sulla base del modello multidimensionale ruolo attivo degli utenti 11 12 Gli utenti OLAP sono in grado di costruire attivamente una sessione di analisi complessa interattiva 3
OLAP DBMS - DW Una sessione OLAP consiste in un percorso di navigazione che riflette il procedimento di analisi di uno o più fatti di interesse sotto diversi aspetti e a diversi livelli di dettaglio. La sessione di analisi produce un risultato per passi successivi (tramite l applicazione di operatori OLAP) Si tende a separare l ambiente DW di analisi da quello DBMS operazionale Alte performance per entrambi i sistemi: DBMS OLTP: metodi di accesso, indicizzazioni, controllo della concorrenza, recovery Warehouse OLAP: complesse query OLAP, viste multidimensionali. Misto: soluzioni di DW virtuali (usando le viste) che però rallentano un sistema OLTP 13 14 15 vs. Operational DBMS OLTP (on-line transaction processing) Tipico dei tradizionali DBMS relazionali Operazioni Day-to-day: vendite/acquisti, inventari, gestione banca, produzione, pagamenti, etc. OLAP (on-line analytical processing) Tipico dei sistemi di data warehouse Analisi dati e sistemi decisionali Caratteristiche diverse (OLTP vs. OLAP): Orientamento dell utente: cliente vs. mercato Contenuto dei Dati: corrente, dettagliato vs. storico, consolidato Progettazione del Database: (ER) vs. (Star) Accessi: update vs. Query read-only ma complesse 16 In dettaglio... OLTP OLAP funzione gestione giornaliera supporto alle decisioni progettazione orientata alle orientata al soggetto applicazioni frequenza giornaliera sporadica dati recenti, dettagliati storici, riassuntivi, multidimensionali sorgente singola DB DB multiple uso ripetitivo ad hoc accesso read/write read flessibilità accesso uso di programmi generatori di query precompilati # record acceduti decine migliaia tipo utenti operatori manager # utenti migliaia centinaia tipo DB singola multiple, eterogenee performance alta bassa dimensione DB 100 MB - GB 100 GB - TB 4
Definizioni 17 Flusso dei dati nel DW Cos è il Obiettivo del DW: costruire un raccoglitore di informazioni che integri dati provenienti da sorgenti di varia natura, li organizzi e li renda disponibili per scopi di analisi e supporto al processo decisionale. 19 20 5
Cos è il Cos è il 21 Un database di supporto alle decisioni, ossia di tipo analitico (OLAP), separato dal database operazionaletransazionale (OLTP) di una certa organizzazione. Mette a disposizione una piattaforma solida di dati storici consolidati per compiere attività di analisi. 22 Definizione: Un DW è una collezione di dati (un DB!) di supporto per il processo decisionale con le seguenti caratteristiche: Orientata ai soggetti di interesse (Subject- Oriented) Integrata e consistente (Integrated) Rappresentativa dell evoluzione temporale (Time Variant) Non volatile Orientata a soggetti Si orienta verso precisi soggetti di interesse (es. customer, product, sales). Rende disponibile una visione semplice e sintetica riguardo a tali soggetti escludendo dati non utili per il processo decisionale. 23 24 6
Integrata e Consistente Costruita a partire dall integrazione di molteplici ed eterogenee sorgenti dati Uso di tecniche di ripulitura ed integrazione 25 26 Evoluzione nel tempo L arco temporale per i DW è molto più ampio di quello dei dati operazionali Database operazionale dati correnti o quasi Data warehouse prospettiva storica (anche molti anni) Il tempo costituisce un dato saliente 27 28 7
Non-Volatile Un deposito fisicamente separato di dati trasformati a partire dall ambiente operazionale. Aggiornamenti sui dati di tipo operazionale non si effettuano nell ambiente di data warehouse. Non sono richieste transazioni e meccanismi di recovery e controllo della concorrenza Richiede solo due operazioni: 29 Caricamento dei dati e Accesso ai dati il problema chiave è quello delle prestazioni 30 - Problematiche - Problematiche Alcune problematiche da affrontare: Altre problematiche: Gestione di grandi volumi di dati Accessibilità ad utenti con limitate conoscenze Gestione di versioni storiche dei dati Integrazione dei dati Accesso a diverse fonti di dati su piattaforme eterogenee Analisi interattiva Sintesi Rappresentazione multidimensionale Correttezza e completezza 31 32 8
DATA MART DATA MART 33 Definizione: Un sottoinsieme o un aggregazione dei dati presenti in un DW primario, contenente le informazioni relative ad una particolare area d interesse. 34 DW secondari o dipendenti che replicano (talvolta sintetizzando ulteriormente) la porzione del DW primario che serve per un determinato scopo Possono anche essere alimentati direttamente dalle sorgenti (senza DW primario in mezzo) indipendenti Vantaggi: Semplificazione delle fasi progettuali Migliore suddivisione organizzativa e strategica Circoscrizione/Contenimento delle informazioni Delinea i contorni delle informazioni necessarie ad un certo tipo di utenti Consente la costruzione incrementale del DW Svantaggi: Schema complesso di accesso ai dati Rischio di inconsistenze tra i data mart Cos è il Data Warehousing Definizione: Processo che, a partire dai dati operazionali gestiti dal S.I., ottiene le informazioni che aiutano i knowledge worker (executive, manager, analisti) nelle analisi dei dati Le analisi sono finalizzate all attuazione di processi decisionali e al miglioramento del patrimonio informativo dell organizzazione. Cos è il Data Warehousing? Ulteriore Definizione: Un insieme di metodi, tecnologie e strumenti per costruire ed utilizzare un data warehouse; così da condurre l analisi dei dati ed avere il supporto ad un processo decisionale. 35 36 9
EXTERNAL DATA SOURCES Data Warehousing ALCUNE CARATTERISTICHE: Integrazione di dati di lungo periodo, spesso completati con informazioni di sintesi. ESTRAZIONE PULITURA TRASFORMAZIONE CARICAMENTO Architetture Dimensioni di diversi gigabyte/ terabyte. Query di lettura molto complesse; aggiornamenti scarsi. Metadata Repository SUPPORTO DATA WAREHOUSE 37 DATA MINING OLAP Architettura - Requisiti Architettura - Requisiti Separazione: tra l elaborazione analitica e quella operazionale/transazionale Scalabilità: l architettura hw e sw devono poter essere ridimensionate facilmente a fronte della crescita nel tempo dei volumi di dati e delle necessità utente Estendibilità: possibilità di accogliere nuove applicazioni e tecnologie senza riprogettare integralmente il sistema Sicurezza: controllo degli accessi (strategico) Amministrabilità: non dev essere troppo complessa 39 40 10
Dw implementato come vista sui dati operazionali (DW VIRTUALE) tramite un apposito strato di elaborazione intermedio (middleware) Requisito di separazione tra OLAP e OLTP non rispettato (interferenza) Architettura di 1 tipo Livelli L. delle Sorgenti L. del Warehouse DATI OPERAZIONALI Middleware Db e Dw sono la stessa cosa Applicabile solo in contesti con esigenze di analisi limitate L. di Analisi Reportistica OLAP 41 Livelli L. delle Sorgenti L. di Alimentazione L. del Warehouse Architettura di 2 tipo DATI OPERAZIONALI STRUMENTI ETL primario DATI ESTERNI Meta Dati Data Mart dipendenti L. di Analisi Reportistica 42 Simulazioni OLAP Data Mining Architettura - 2 tipo Architettura - 2 tipo 43 Livello delle sorgenti: Uso di fonti dati eterogenee DBMS relazionali, Sistemi Legacy (es. mainframe / minicomputer),.. Dati provenienti da sistemi informativi esterni Livello dell alimentazione: Estrazione dalle sorgenti, ripulitura, completamento, consistenza ed integrazione in uno schema comune (Strumenti ETL = Extraction, Transformation and Loading) 44 Livello del Warehouse: Raccolta in un singolo contenitore logico Eventuale creazione di Data Mart Parziali repliche orientate verso specifiche aree dell impresa Uso di un contenitore di Meta-Dati 11
METADATI I Metadati Sono dati usati per avere informazioni su altri dati. Un db che contiene: Definizione del DW Definizione delle regole ETL Definizione delle profilazioni Documentazione 46 I Metadati Metadati 47 Indicano le sorgenti, l uso e le funzioni dei dati memorizzati nel DW; Descrivono le regole di trasformazione ossia descrivono come i dati sono trasformati attraverso il passaggio tra i vari livelli dell architettura. Il DB dei metadati è strettamente collegato al DW ed è fortemente utilizzato sia dalle applicazioni che alimentano il DW che da quelle che si occupano dell analisi dei dati vera e propria. 48 In particolare servono per: Documentare la struttura del dw: Schema, viste logiche, dimensioni, gerarchie, dati derivati, localizzazione di eventuali data mart; Documentare la genealogia dei dati, ovvero l origine dei dati importati e l indicazione delle procedure di trasformazione, pulitura ed alimentazione Definire i meccanismi di accesso: Utenti (abilitazioni, profili) Definire gli schemi dei Data Mart 12
Architettura - 2 tipo Architettura - 2 tipo Livello di Analisi: Consultazione dei dati integrati per: Creare report (utente passivo) Fare analisi Fare simulazioni (utente attivo) 49 Tecnologicamente sono richieste: Possibilità di navigazione sui dati aggregati Ottimizzazione di interrogazioni complesse Tecniche di indicizzazione avanzate Interfacce amichevoli OLAP 50 Architettura - 2 tipo (2/2) Architettura - 2 tipo (1/2) 51 52 13
Data Mart Indipendenti Data Mart Indipendenti SDO Stipendi Personale Acquisti Posti Letto Referti Ricoveri Anagrafica Economato DRG Contabilità Dati esterni 53 Pianificazione Patrimonio Personale Independent Data Marts SDO Stipendi Personale Acquisti Posti Letto Referti Ricoveri Anagrafica Economato DRG Contabilità Pianificazione Patrimonio Personale Independent Data Marts Dati esterni 54 Enterprise Approccio evolutivo Livelli L. delle Sorgenti Architettura di 3 tipo DATI OPERAZIONALI DATI ESTERNI STRUMENTI ETL Stipendi SDO Personale Acquisti Posti Letto Referti Ricoveri Anagrafica Enterprise DRG Economato Contabilità Dati esterni 55 Pianificazione Patrimonio Personale L. di Alimentazione L. del Warehouse Data Riconciliati primario Meta Dati Data Mart L. di Analisi Reportistica 56 Simulazioni A.GORI - DWDM OLAP 2011/2012 Data Mining 14
Architettura - 3 tipo Architettura - 3 tipo Si introduce lo strato dei dati riconciliati (operational data store) che materializza i dati operazionali ottenuti a valle del processo di integrazione e ripulitura dei dati sorgente si crea un modello di dati comune 57 58 Architettura - 3 tipo Il DW non viene alimentato direttamente dalle sorgenti ma dai dati riconciliati: separazione tra le problematiche legate all estrazione integrazione dei dati provenienti dalle sorgenti e quelle inerenti l alimentazione del DW. Ulteriore Ridondanza 59 60 15