Data Warehousing e Data Mining



Documenti analoghi
Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehouse Introduzione

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Cosa è un data warehouse?

Data Warehousing (DW)

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Lezione 1. Introduzione e Modellazione Concettuale

Progettaz. e sviluppo Data Base

Sistemi Informativi Aziendali I

Data Warehouse Architettura e Progettazione

B C I un altro punto di vista Introduzione

DSCube. L analisi dei dati come strumento per i processi decisionali

DATA WAREHOUSING CON JASPERSOFT BI SUITE

REALIZZARE UN MODELLO DI IMPRESA

Progettaz. e sviluppo Data Base

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

Data Mining a.a

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

Requisiti della Business Intelligence

1. BASI DI DATI: GENERALITÀ

Il Sistema Informativo Aziendale nei processi gestionali/organizzativi e di supporto alle decisioni

Data warehouse (parte 1)

Base di dati e sistemi informativi

Rassegna sui principi e sui sistemi di Data Warehousing

Data Warehousing. Esercitazione 1

Ciclo di vita dimensionale

Sistemi di supporto alle decisioni

Sistemi informativi secondo prospettive combinate

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Introduzione alla Business Intelligence

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Introduzione alla Business Intelligence.

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

Il Data Warehousing. Prof. Stefano Rizzi Alma Mater Studiorum - Università di Bologna

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Architetture per l analisi di dati

Database. Si ringrazia Marco Bertini per le slides

Analisi funzionale della Business Intelligence

Integrazione dei processi aziendali Sistemi ERP e CRM. Alice Pavarani

UNIVERSITÀ DEGLI STUDI DI PADOVA

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

AICA - Workshop 01/03/2011

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

La Metodologia adottata nel Corso

Introduzione al data base

I sistemi di reporting e i rapporti direzionali

Basi di Dati Relazionali

Data Warehousing: concetti base e metodologie

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing

Governo Digitale a.a. 2011/12

TECNICHE DI SIMULAZIONE

Il database management system Access

Sistemi Informativi e Sistemi ERP

Introduzione ad OLAP (On-Line Analytical Processing)

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

SCHEDA PRODOTTO PAG. 1 J O B T I M E W F. Variazioni mensili al cartellino presenze. Versione 6.1. JOBTIME Work Flow

Knowledge Management. Sistemi Informativi 08/05/12. Introduzione (1/2)

Soluzioni integrate per la gestione del magazzino

Sistemi Informativi e Basi di Dati

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. D. Talia - UNICAL. Sistemi Operativi 9.1

DataWarehouse Regionale del Settore Socio Sanitario Modulo Dati di Mortalità

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale

DATABASE. A cura di Massimiliano Buschi

WebBi S.r.l offre consulenza e soluzioni per le seguenti aree: Data Warehousing. Business Intelligence. Disegno di architetture integrate

ORDINE DEGLI ATTUARI

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Organizzazione degli archivi

Introduzione al Data Warehousing

Facoltà di Farmacia - Corso di Informatica

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione

La suite Pentaho Community Edition

La tecnologia cloud computing a supporto della gestione delle risorse umane

Indice. Indice Premessa e scopo del documento Ambiente operativo Architettura di sistema... 5

Access. P a r t e p r i m a

Al giorno d oggi, i sistemi per la gestione di database

Introduzione al data warehousing

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. Implementazione del File System. Struttura del File System. Implementazione

Training sulle soluzioni SAP BusinessObjects BI4

Caratteristiche principali. Contesti di utilizzo

IL CONTROLLO DI GESTIONE

MODULO 5 Appunti ACCESS - Basi di dati

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

SOLUZIONE Web.Orders online

PROXYMA Contrà San Silvestro, Vicenza Tel Fax

Relazione sul data warehouse e sul data mining

Corso di Basi di Dati e Conoscenza

Scaletta della lezione:

Transcript:

Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs. OLAP Sistemi transazionali On-Line Transaction Processing (OLTP) Sistemi analitici On-Line Analytical Processing (OLAP) Profondamente diversi 4 1

OLTP vs. OLAP 5 6 7 8 2

9 10 OLTP vs. OLAP OLAP Principale modalità di uso dei dati di un DW Consente di analizzare ed esplorare i dati interattivamente sulla base del modello multidimensionale ruolo attivo degli utenti 11 12 Gli utenti OLAP sono in grado di costruire attivamente una sessione di analisi complessa interattiva 3

OLAP DBMS - DW Una sessione OLAP consiste in un percorso di navigazione che riflette il procedimento di analisi di uno o più fatti di interesse sotto diversi aspetti e a diversi livelli di dettaglio. La sessione di analisi produce un risultato per passi successivi (tramite l applicazione di operatori OLAP) Si tende a separare l ambiente DW di analisi da quello DBMS operazionale Alte performance per entrambi i sistemi: DBMS OLTP: metodi di accesso, indicizzazioni, controllo della concorrenza, recovery Warehouse OLAP: complesse query OLAP, viste multidimensionali. Misto: soluzioni di DW virtuali (usando le viste) che però rallentano un sistema OLTP 13 14 15 vs. Operational DBMS OLTP (on-line transaction processing) Tipico dei tradizionali DBMS relazionali Operazioni Day-to-day: vendite/acquisti, inventari, gestione banca, produzione, pagamenti, etc. OLAP (on-line analytical processing) Tipico dei sistemi di data warehouse Analisi dati e sistemi decisionali Caratteristiche diverse (OLTP vs. OLAP): Orientamento dell utente: cliente vs. mercato Contenuto dei Dati: corrente, dettagliato vs. storico, consolidato Progettazione del Database: (ER) vs. (Star) Accessi: update vs. Query read-only ma complesse 16 In dettaglio... OLTP OLAP funzione gestione giornaliera supporto alle decisioni progettazione orientata alle orientata al soggetto applicazioni frequenza giornaliera sporadica dati recenti, dettagliati storici, riassuntivi, multidimensionali sorgente singola DB DB multiple uso ripetitivo ad hoc accesso read/write read flessibilità accesso uso di programmi generatori di query precompilati # record acceduti decine migliaia tipo utenti operatori manager # utenti migliaia centinaia tipo DB singola multiple, eterogenee performance alta bassa dimensione DB 100 MB - GB 100 GB - TB 4

Definizioni 17 Flusso dei dati nel DW Cos è il Obiettivo del DW: costruire un raccoglitore di informazioni che integri dati provenienti da sorgenti di varia natura, li organizzi e li renda disponibili per scopi di analisi e supporto al processo decisionale. 19 20 5

Cos è il Cos è il 21 Un database di supporto alle decisioni, ossia di tipo analitico (OLAP), separato dal database operazionaletransazionale (OLTP) di una certa organizzazione. Mette a disposizione una piattaforma solida di dati storici consolidati per compiere attività di analisi. 22 Definizione: Un DW è una collezione di dati (un DB!) di supporto per il processo decisionale con le seguenti caratteristiche: Orientata ai soggetti di interesse (Subject- Oriented) Integrata e consistente (Integrated) Rappresentativa dell evoluzione temporale (Time Variant) Non volatile Orientata a soggetti Si orienta verso precisi soggetti di interesse (es. customer, product, sales). Rende disponibile una visione semplice e sintetica riguardo a tali soggetti escludendo dati non utili per il processo decisionale. 23 24 6

Integrata e Consistente Costruita a partire dall integrazione di molteplici ed eterogenee sorgenti dati Uso di tecniche di ripulitura ed integrazione 25 26 Evoluzione nel tempo L arco temporale per i DW è molto più ampio di quello dei dati operazionali Database operazionale dati correnti o quasi Data warehouse prospettiva storica (anche molti anni) Il tempo costituisce un dato saliente 27 28 7

Non-Volatile Un deposito fisicamente separato di dati trasformati a partire dall ambiente operazionale. Aggiornamenti sui dati di tipo operazionale non si effettuano nell ambiente di data warehouse. Non sono richieste transazioni e meccanismi di recovery e controllo della concorrenza Richiede solo due operazioni: 29 Caricamento dei dati e Accesso ai dati il problema chiave è quello delle prestazioni 30 - Problematiche - Problematiche Alcune problematiche da affrontare: Altre problematiche: Gestione di grandi volumi di dati Accessibilità ad utenti con limitate conoscenze Gestione di versioni storiche dei dati Integrazione dei dati Accesso a diverse fonti di dati su piattaforme eterogenee Analisi interattiva Sintesi Rappresentazione multidimensionale Correttezza e completezza 31 32 8

DATA MART DATA MART 33 Definizione: Un sottoinsieme o un aggregazione dei dati presenti in un DW primario, contenente le informazioni relative ad una particolare area d interesse. 34 DW secondari o dipendenti che replicano (talvolta sintetizzando ulteriormente) la porzione del DW primario che serve per un determinato scopo Possono anche essere alimentati direttamente dalle sorgenti (senza DW primario in mezzo) indipendenti Vantaggi: Semplificazione delle fasi progettuali Migliore suddivisione organizzativa e strategica Circoscrizione/Contenimento delle informazioni Delinea i contorni delle informazioni necessarie ad un certo tipo di utenti Consente la costruzione incrementale del DW Svantaggi: Schema complesso di accesso ai dati Rischio di inconsistenze tra i data mart Cos è il Data Warehousing Definizione: Processo che, a partire dai dati operazionali gestiti dal S.I., ottiene le informazioni che aiutano i knowledge worker (executive, manager, analisti) nelle analisi dei dati Le analisi sono finalizzate all attuazione di processi decisionali e al miglioramento del patrimonio informativo dell organizzazione. Cos è il Data Warehousing? Ulteriore Definizione: Un insieme di metodi, tecnologie e strumenti per costruire ed utilizzare un data warehouse; così da condurre l analisi dei dati ed avere il supporto ad un processo decisionale. 35 36 9

EXTERNAL DATA SOURCES Data Warehousing ALCUNE CARATTERISTICHE: Integrazione di dati di lungo periodo, spesso completati con informazioni di sintesi. ESTRAZIONE PULITURA TRASFORMAZIONE CARICAMENTO Architetture Dimensioni di diversi gigabyte/ terabyte. Query di lettura molto complesse; aggiornamenti scarsi. Metadata Repository SUPPORTO DATA WAREHOUSE 37 DATA MINING OLAP Architettura - Requisiti Architettura - Requisiti Separazione: tra l elaborazione analitica e quella operazionale/transazionale Scalabilità: l architettura hw e sw devono poter essere ridimensionate facilmente a fronte della crescita nel tempo dei volumi di dati e delle necessità utente Estendibilità: possibilità di accogliere nuove applicazioni e tecnologie senza riprogettare integralmente il sistema Sicurezza: controllo degli accessi (strategico) Amministrabilità: non dev essere troppo complessa 39 40 10

Dw implementato come vista sui dati operazionali (DW VIRTUALE) tramite un apposito strato di elaborazione intermedio (middleware) Requisito di separazione tra OLAP e OLTP non rispettato (interferenza) Architettura di 1 tipo Livelli L. delle Sorgenti L. del Warehouse DATI OPERAZIONALI Middleware Db e Dw sono la stessa cosa Applicabile solo in contesti con esigenze di analisi limitate L. di Analisi Reportistica OLAP 41 Livelli L. delle Sorgenti L. di Alimentazione L. del Warehouse Architettura di 2 tipo DATI OPERAZIONALI STRUMENTI ETL primario DATI ESTERNI Meta Dati Data Mart dipendenti L. di Analisi Reportistica 42 Simulazioni OLAP Data Mining Architettura - 2 tipo Architettura - 2 tipo 43 Livello delle sorgenti: Uso di fonti dati eterogenee DBMS relazionali, Sistemi Legacy (es. mainframe / minicomputer),.. Dati provenienti da sistemi informativi esterni Livello dell alimentazione: Estrazione dalle sorgenti, ripulitura, completamento, consistenza ed integrazione in uno schema comune (Strumenti ETL = Extraction, Transformation and Loading) 44 Livello del Warehouse: Raccolta in un singolo contenitore logico Eventuale creazione di Data Mart Parziali repliche orientate verso specifiche aree dell impresa Uso di un contenitore di Meta-Dati 11

METADATI I Metadati Sono dati usati per avere informazioni su altri dati. Un db che contiene: Definizione del DW Definizione delle regole ETL Definizione delle profilazioni Documentazione 46 I Metadati Metadati 47 Indicano le sorgenti, l uso e le funzioni dei dati memorizzati nel DW; Descrivono le regole di trasformazione ossia descrivono come i dati sono trasformati attraverso il passaggio tra i vari livelli dell architettura. Il DB dei metadati è strettamente collegato al DW ed è fortemente utilizzato sia dalle applicazioni che alimentano il DW che da quelle che si occupano dell analisi dei dati vera e propria. 48 In particolare servono per: Documentare la struttura del dw: Schema, viste logiche, dimensioni, gerarchie, dati derivati, localizzazione di eventuali data mart; Documentare la genealogia dei dati, ovvero l origine dei dati importati e l indicazione delle procedure di trasformazione, pulitura ed alimentazione Definire i meccanismi di accesso: Utenti (abilitazioni, profili) Definire gli schemi dei Data Mart 12

Architettura - 2 tipo Architettura - 2 tipo Livello di Analisi: Consultazione dei dati integrati per: Creare report (utente passivo) Fare analisi Fare simulazioni (utente attivo) 49 Tecnologicamente sono richieste: Possibilità di navigazione sui dati aggregati Ottimizzazione di interrogazioni complesse Tecniche di indicizzazione avanzate Interfacce amichevoli OLAP 50 Architettura - 2 tipo (2/2) Architettura - 2 tipo (1/2) 51 52 13

Data Mart Indipendenti Data Mart Indipendenti SDO Stipendi Personale Acquisti Posti Letto Referti Ricoveri Anagrafica Economato DRG Contabilità Dati esterni 53 Pianificazione Patrimonio Personale Independent Data Marts SDO Stipendi Personale Acquisti Posti Letto Referti Ricoveri Anagrafica Economato DRG Contabilità Pianificazione Patrimonio Personale Independent Data Marts Dati esterni 54 Enterprise Approccio evolutivo Livelli L. delle Sorgenti Architettura di 3 tipo DATI OPERAZIONALI DATI ESTERNI STRUMENTI ETL Stipendi SDO Personale Acquisti Posti Letto Referti Ricoveri Anagrafica Enterprise DRG Economato Contabilità Dati esterni 55 Pianificazione Patrimonio Personale L. di Alimentazione L. del Warehouse Data Riconciliati primario Meta Dati Data Mart L. di Analisi Reportistica 56 Simulazioni A.GORI - DWDM OLAP 2011/2012 Data Mining 14

Architettura - 3 tipo Architettura - 3 tipo Si introduce lo strato dei dati riconciliati (operational data store) che materializza i dati operazionali ottenuti a valle del processo di integrazione e ripulitura dei dati sorgente si crea un modello di dati comune 57 58 Architettura - 3 tipo Il DW non viene alimentato direttamente dalle sorgenti ma dai dati riconciliati: separazione tra le problematiche legate all estrazione integrazione dei dati provenienti dalle sorgenti e quelle inerenti l alimentazione del DW. Ulteriore Ridondanza 59 60 15