Lezione 2. Dati e Architetture per il Data Warehousing ETL

Documenti analoghi
Architetture di Data Warehouse. PDF created with pdffactory trial version

Data warehouse Introduzione

Data warehouse Introduzione

Data warehouse: introduzione

Redazione e Presentazione di Progetti Informatici

Indice. Prefazione. Capitolo 1 Introduzione al data warehousing 1

Lezione 5. Alimentazione dei Data Warehouses Riconciliazione e Integrazione di Schemi di Dati per il Data Warehousing

Architetture Evolute nei Sistemi Informativi. architetture evolute 1

Sistemi di Elaborazione dell Informazione

UTILIZZO DEI SISTEMI INFORMATIVI PER IL SUPPORTO DELLE DECISIONI ARCHITETTURA DI RIFERIMENTO

Sistemi Informativi L. Corso di Laurea in Ingegneria dei Processi Gestionali A.A. 2003/2004. Docente: Prof. Wilma Penzo

Sistemi Informativi Avanzati

Prof. Giorgio Poletti

Data Warehousing e Data Mining

Sistema Informativo Statistico Regione Campania

Basi di dati attive. Una base di dati è ATTIVA quando consente la definizione e la gestione di regole di produzione (regole attive o trigger).

Data Warehouse Architettura e Progettazione

Dall intuizione alla conoscenza

Prof. Giorgio Poletti

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

ORDINE DEGLI ATTUARI

Forum PA Big Data e Analytics: modelli, analisi e previsioni, per valorizzare l'enorme patrimonio informativo pubblico

MODELLI DEI DATI. Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia

Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia. Università degli Studi di Salerno

Data warehouse Introduzione

Fondamenti di Informatica e Programmazione

Sistemi Informativi su Web

Il Data Warehouse di Ateneo

Business Intelligence & Data Warehousing

I Componenti del processo decisionale 7

Data Warehousing. Sommario. Luca Cabibbo, Riccardo Torlone, Paolo Atzeni. Processi. Processi, dati e decisioni. Processi presso una banca

Fondamenti di Informatica A. A / 1 9

Piano Generale di Sviluppo

Le basi di dati. Definizione 1. Lezione 2. Bisogna garantire. Definizione 2 DBMS. Differenza

Funzione primaria del sistema informativo Supportare chi fa funzionare l azienda attraverso la propria attività Supporto necessario in aree diverse,

BASI DI DATI E UTENTI DI BASI DI DATI

Cap. 1-I 1 I sistemi informatici

SISTEMI INFORMATIVI AZIENDALI

Marco R. Bellinzona Partner Ecos. Indicatori di performance per la Pubblica Amministrazione: il caso Provincia di Milano

Analysis Service. Dutto Riccardo IPSI - tel Dutto Riccardo - SQL Server 2008.

Logistica e nuove prospettive con le soluzioni di business analytics di SAP

Introduzione al Data Warehousing

SISTEMI INFORMATIVI DIREZIONALI BUSINESS INTELLIGENCE

Progettazione del Data Warehouse

Introduzione al Data Warehousing

CONCETTI E ARCHITETTURA DI UN SISTEMA DI BASI DI DATI

Elena Baralis 2007 Politecnico di Torino 1

Corso di basi di dati Fascicolo T04b Nota: i primi lucidi sostituiscono alcuni già proposti, in altro ordine e ccon qualche differenza, nel fascicolo

I sistemi di reporting e i rapporti direzionali

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

Sistemi Informativi Avanzati Anno Accademico 2011/2012 Prof. Domenico Beneventano Progettazione del Data Warehouse

Data Warehousing e Business Intelligence

Sistemi informativi D B M G. Introduzione. Introduzione alle basi di dati D B M G 2. Elena Baralis 2007 Politecnico di Torino 1

Corso integrato di Sistemi di Elaborazione. Modulo I. Prof. Crescenzio Gallo.

Elena Baralis 2007 Politecnico di Torino 1

Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS

Elena Baralis 2007 Politecnico di Torino 1

Basi di Dati Direzionali

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

Basi di Dati. Concetti e Principi Generali. Maria Mirto

CASE HISTORY CRM PER I SERVIZI ALL IMPRESA. Servizi CGN. beantech. IT moves your business

Introduzione al Data Warehousing

Armonizzazione dei sistemi contabili nella Pubblica Amministrazione ORACLE PRODUCT LOGO

Corso di Laurea in Informatica Basi di Dati a.a

Business Intelligence HR

IL PIANO DI QUALITA AZIENDALE

SISTEMI INFORMATIVI AZIENDALI

Sistemi Informativi Avanzati Anno Accademico 2013/2014 Prof. Domenico Beneventano. Archi multipli

PROGRAMMAZIONE CLASSE: 4A-4B-4I DISCIPLINA: INFORMATICA A.S. 2016/17

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Laboratorio di Sistemi Informativi Aziendali a.a

ASPETTO SOFTWARE. Estensione del sistema operativo di un pc, ovvero un software di base che permette la comunicazione con gli utenti

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Basi di Dati Parallele

Il Sistema Integrato dei Istat

Pag Politecnico di Torino 1

INFORMATICA GENERALE Prof. Alberto Postiglione Scienze della Comunicazione

Sistemi informativi secondo prospettive combinate

D B M G D B M G 2. Gestione degli indici. Introduzione Strutture fisiche di accesso Definizione di indici in SQL Progettazione fisica

InViMall - Intelligent Virtual Mall. Progetto MSE MI Modello di Vendita. Survey

Progetto ARS01_00917 OK-INSAID Operational Knowledge from Insights and An 703,520 PON R&I Capofila. Durata (mesi) 30 Data Inizio 01/07/2018

Questo consentirà il mantenimento degli archivi anagrafici origine, separatamente, ma disponibili alle elaborazioni che si riterranno più utili.

UML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13

CAPITOLO 8. Tecnologie per il controllo, il social business e i big data ORGANIZZAZIONE AZIENDALE

Università di Bergamo Facoltà di Ingegneria INGEGNERIA DEL SOFTWARE. Paolo Salvaneschi A5_3 V2.1. Controllo Qualità. Ispezioni

Il modello multidimensionale. Per le slides si ringrazia il Prof. Stefano Rizzi ( e il Dott.

Basi di Dati Relazionali

I S.I. DIREZIONALI (BUSINESS INTELLIGENCE)

I SISTEMI OPERATIVI. Insieme di programmi che implementano funzioni essenziali per l uso di un sistema elaboratore.

Sistema informativo. informazionale

Prof. Pagani corrado SISTEMI INFORMATIVI E DATABASE

Microsoft Access. Nozioni di base. Contatti: Dott.ssa Silvia Bonfanti

Sistemi Informativi Avanzati

Corso di. Basi di Dati I. 1. Introduzione

Ciclo di vita di un sistema informativo

Data warehouse Progettazione

Corso di. Basi di Dati I. 1. Introduzione

A.s Programma di Informatica

INFORMATICA PER LE SCIENZE UMANE a.a. 2016/2017

SQL e linguaggi di programmazione. Cursori. Cursori. L interazione con l ambiente SQL può avvenire in 3 modi:

Transcript:

Lezione 2 Dati e Architetture per il Data Warehousing ETL 27/02/2010 1

Introduzione al DW: Dati I dati possono essere classificati in vari modi nel DW si adotta una classificazione a tre assi: significato business data dati come prodotto metadati struttura strutturati non-strutturati scopo pubblici personali 27/02/2010 2

Introduzione al DW: Dati Uso nell organizzazione dati operazionali dati informazionali Granularità dei dati business dati di dettaglio dati aggregati 27/02/2010 3

Introduzione al DW: Dati Tipi di elaborazione read/write data read-only data Caratterizzazione temporale dati correnti snapshots dati periodici 27/02/2010 4

Introduzione al DW: Dati Caratterizzazione Funzionale: Dati real-time dati operazionali up-to-date utilizzati per il funzionamento dell organizzazione ed gestiti attraverso transazioni R/W tipicamente predefinite e semplici Dati derivati dati organizzati a snapshot o come dati periodici In forma dettagliata o aggregata che sono derivati, applicando un qualche procedimento di calcolo, dai dati real-time utilizzati tipicamente per il supporto alle decisioni 27/02/2010 5

Introduzione al DW: Dati Dati riconciliati forma di dati derivati, storicizzati e dettagliati il cui scopo è quello di garantire una visibilità univoca di tutte le informazioni presenti nell organizzazione; vengono periodicamente prodotti dai dati real-time attraverso procedure di ripulitura ed integrazione Dati business non-strutturati immagini, testi ed, in generale, qualsiasi forma di registrazione cui non sia facilmente ascrivibile una struttura in termini di campi/tipi 27/02/2010 6

Introduzione del DW: Dati Alcuni esempi... Dati real-time anagrafiche clienti conti bancari fatturazioni/magazzino Dati derivati dati aggregati di vendita analisi di mercato indicatori economici chiave 27/02/2010 7

Introduzione del DW: Dati un DW fa riferimento soprattutto a dati strutturati e pubblici sia di tipo business che metadati non-strutturati, pubblici di tipo metadati dati non-strutturati pubblici di tipo business (soprattutto in tempi molto recenti, con l affermarsi di tecnologie evolute di estrazione semantica di informazioni) utilizza (o dovrebbe utilizzare) molto limitatamente dati privati 27/02/2010 8

Introduzione del DW: Dati Le organizzazioni tipicamente possiedono altri dati che non entrano direttamente a far parte del DW Questi includono, come esempi importanti, i dati come prodotto, i dati esterni ed i dati che risiedono e vengono elaborati in maniera personale 27/02/2010 9

Introduzione del DW: Dati i dati esterni e quelli personali, in certi casi, possono essere utili ai fini dell assunzione di decisioni, ma il loro scopo rimane al di fuori dei confini del DW i dati esterni, in particolare, rivestono sempre maggiore importanza (ad es., fonti informative su andamenti di mercato su Web), tuttavia l accesso ad essi ed, ancora di più, la loro aggiunta ai dati gestiti dal DW deve essere attentamente regolata al fine di evitare l insorgere di problemi di consistenza e qualità delle informazioni fornite agli utenti del DW 27/02/2010 10

Architetture Data Warehouse Descrivono la struttura generale del DW Diversamente dal caso dei sistemi operazionali, l enfasi in questo caso di concentra quasi esclusivamente sulla progettazione della struttura dei dati (e non delle funzioni che li utilizzano) 27/02/2010 11

Architetture Data Warehouse Caratteristiche essenziali: Separazione tra elaborazione analitica e transazionale Scalabilità di fronte alla crescita nel tempo dei volumi di dati Estendibilità nei confronti di nuove tecnologie e applicazioni Sicurezza dei dati memorizzati Amministrabilità 27/02/2010 12

Architetture Data Warehouse le varie architetture si distinguono in base al numero di livelli che le caratterizzano questa caratterizzazione è indipendente, in una certa misura, dalla organizzazione fisica che viene adottata per i dati ed, in particolare, dalla scelta di realizzare ogni livello in modalità materializzata ovvero virtuale 27/02/2010 13

Architetture DW: 1 livello Dati operazionali MIDDLEWARE Strumenti di reportistica Strumenti OLAP Livello delle sorgenti Livello del warehouse Livello di analisi Vantaggi: Minimizzazione del volume di dati memorizzati Sviluppo rapido e costi ridotti Evita il problema della sincronizzazione dei dati ripetuti Svantaggi: Esecuzione ripetuta della stessa query Mancanza di storicizzazione dei dati Contesa sui dati tra sistemi operazionali e sistemi decisionali 27/02/2010 14

Architetture DW: 1 livello lo sviluppo di un DW che si proponga di interfacciare una sola sorgente operazionale è, in genere, molto meno impegnativo rispetto al caso in cui ci siano più fonti coinvolte DW virtuale : termine con cui si indica un DW ad un solo livello in cui l utente può accedere più sorgenti operazionali attraverso strati di middleware che realizzano i necessari mapping tra dati 27/02/2010 15

Architetture DW: 2 livelli Meta-dati Dati operazionali Data mart Report Dati esterni ETL Data Warehouse Data mining OLAP Livello delle sorgenti Livello di alimentazione Livello del warehouse Livello di analisi Vantaggi: Soluzione del problema della concorrenza tra applicazioni operazionali e decisionali Diverse derivazioni degli stessi dati Svantaggi: Alto livello di duplicazione dei dati, spesso incontrollato 27/02/2010 16

Architettura DW: 2 livelli In questa architettura la complessità del sistema è, in larga misura, nascosta Nonostante i suoi difetti è, storicamente, una delle architetture maggiormente utilizzate, anche perché ben si presta a sviluppi di tipo pilota, che coinvolgono una singola porzione dell organizzazione Data mart : termine con il quale si indica comunemente un implementazione a due livelli con un dominio applicativo molto ben definito e ristretto 27/02/2010 17

Architetture DW: 3 livelli Meta-dati Dati operazionali Data mart Dari Riconciliati Dati esterni ETL Data Warehouse Report Data mining OLAP Livello delle sorgenti Livello di alimentazione Livello dei dati riconciliati Livello del warehouse Livello di analisi Vantaggi: Dati storici memorizzati nel livello dei dati riconciliati e conseguente semplificazione dei sistemi operazionali Notevole riduzione dei problemi di duplicazione dei dati La riconciliazione è effettuata una sola volta Svantaggi: Inadeguatezza del modello nel caso di sorgenti operazionali particolarmente eterogenee fra loro 27/02/2010 18

Architetture DW: 3 livelli Il livello riconciliato è la realizzazione materializzata del modello dati che descrive l intera organizzazione L elevato livello di duplicazione in questa tipologia di architettura è più apparente che reale; in ogni caso, il costo in termini di spazio di memorizzazione è ampiamente ripagato in termini di efficienza, manutenibilità e controllabilità 27/02/2010 19

Architetture DW: 3 livelli La problematica principale di questa tipologia di architettura, dal punto di vista progettuale e realizzativo, consiste nella difficoltà della definizione del livello riconciliato La grande complessità di questo problema rende l architettura inadatta (salvo casi particolari) ad applicazioni di piccola dimensione Diventa, viceversa, l architettura di più conveniente nel caso di sistemi DW di dimensione significativa o che, comunque, coinvolgano più basi di dati sorgente eterogenee tra loro 27/02/2010 20

Strumenti ETL Extraction Transformation Loading Riconciliazione Ruolo: Alimentare il livello Dati Riconciliati Esauriente Di alta qualità 27/02/2010 21

Strumenti ETL Riconciliazione: Avviene in due occasioni Creazione del DW Aggiornamento del DW È l operazione più complessa e impegnativa 27/02/2010 22

Strumenti ETL Fasi della riconciliazione 1. 2. Estrazione Ripulitura Correzione Valori 3. Trasformazione Correzione Formato 4. Caricamento 27/02/2010 23

Strumenti ETL: Estrazione Fase di estrazione dei dati dalla sorgente Estrazione statica: popolamento iniziale del DW Estrazione incrementale: aggiornamento del DW, catturando solo i cambiamenti dall ultima estrazione Basata sul giornale (log) nel DBMS operazionale Guidata dalle sorgenti che notificano i cambiamenti (per es. trigger) 27/02/2010 24

Strumenti ETL: Pulitura Fase di ripulitura dei dati estratti Fase critica per migliorare la qualità dei dati Tipiche situazioni di dati sporchi: Dati duplicati Inconsistenze tra valori logicamente associati Dati mancanti Uso non previsto di un campo Valori impossibili Valori inconsistenti dovuti a diverse convenzioni o abbreviazioni Valori inconsistenti dovuti a errori di data entry 27/02/2010 25

Strumenti ETL: Pulitura Correzioni: Dizionari: correggere errori di scrittura, abbreviazioni, sinonimi Regole: (proprie del dominio applicativo) stabilire le corrette corrispondenze 27/02/2010 26

Strumenti ETL: Trasformazione Fase centrale del processo di riconciliazione Conversione dati: Formato Operazionale Formato DW Corrispondenza dei formati complicata dalla presenza di più sorgenti eterogenee Fase di integrazione 27/02/2010 27

Strumenti ETL: Trasformazione Situazioni tipiche: Testi liberi Formati differenti (per es. date) Funzionalità: Conversione e normalizzazione Matching tra campi equivalenti di diverse fonti Alimentazione: Denormalizzazione e Aggregazione 27/02/2010 28

Strumenti ETL: Caricamento Refresh Dati del DW integralmente riscritti sostituendo i precedenti Normalmente utilizzata solo per il popolamento iniziale, abbinata a estrazione statica Update Cambiamenti alle sorgenti aggiunti al DW, senza distruggere o alterare dati esistenti Normalmente utilizzata per l aggiornamento periodico del DW, abbinata a estrazione incrementale 27/02/2010 29