Data Quality. Cinzia Cappiello 14/11/2005 Politecnico di Milano. Tecnologie per i Sistemi Informativi, 2005-2006



Documenti analoghi
Organizzazione degli archivi

Database. Si ringrazia Marco Bertini per le slides

DBMS (Data Base Management System)

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Introduzione alla teoria dei database relazionali. Come progettare un database

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Progettaz. e sviluppo Data Base

Piano di gestione della qualità

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Le fattispecie di riuso

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Dispensa di database Access

I database relazionali (Access)

La Metodologia adottata nel Corso

I Sistemi Informativi

Base di dati e sistemi informativi

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

03. Il Modello Gestionale per Processi

DATABASE. A cura di Massimiliano Buschi

Il database management system Access

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL

MANUALE DELLA QUALITÀ Pag. 1 di 6

Progettazione di Basi di Dati

Capitolo 13. Interrogare una base di dati

Lezione 1. Introduzione e Modellazione Concettuale

Sistemi per la gestione di database: MySQL ( )

Basi di Dati e Microsoft Access

DATABASE RELAZIONALI

Introduzione al data base

Organizzazione delle informazioni: Database

Data Warehousing (DW)

MODELLO RELAZIONALE. Introduzione

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Lezione V. Aula Multimediale - sabato 29/03/2008

Corso di Informatica (Basi di Dati)

corso di Access MICROSOFT ACCESS Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012

Operazioni sui database

Business Process Management

Access. P a r t e p r i m a

Configuration Management

INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO

Sistemi informativi secondo prospettive combinate

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

Le Basi di Dati. Le Basi di Dati

Basi di Dati Relazionali

TECNICHE DI SIMULAZIONE

Basi di dati. Concetti Introduttivi ESEMPIO. Fisica, Analisi, Informatica. Entità Relazioni Interrogazioni. Database 2

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

Problem Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Automazione Industriale (scheduling+mms) scheduling+mms.

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Gestione delle tabelle

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

Concetti di base di ingegneria del software

SOLUZIONE Web.Orders online

PROGETTO TECNICO SISTEMA DI GESTIONE QUALITA IN CONFORMITÀ ALLA NORMA. UNI EN ISO 9001 (ed. 2008) n. 03 del 31/01/09 Salvatore Ragusa

Sistemi Informativi e Basi di Dati

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica.

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

IL SISTEMA INFORMATIVO

Facoltà di Farmacia - Corso di Informatica

MODULO 5 Appunti ACCESS - Basi di dati

1. BASI DI DATI: GENERALITÀ

ƒ Gli standard e la gestione documentale

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

ARCHIVIAZIONE DOCUMENTALE NEiTdoc

MANUALE DELLA QUALITÀ SIF CAPITOLO 08 (ED. 01) MISURAZIONI, ANALISI E MIGLIORAMENTO

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei

Definizione di domini

Volumi di riferimento

Modello Relazionale dei DBMS - Vincoli Tradizionalmente, esistono quattro modelli logici: Gerarchico Reticolare Relazionale A oggetti XML I modelli

Strutturazione logica dei dati: i file

Progettaz. e sviluppo Data Base

Corso di. Analisi e contabilità dei costi

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

I modelli normativi. I modelli per l eccellenza. I modelli di gestione per la qualità. ! I modelli normativi. ! I modelli per l eccellenza

Politica del WHOIS relativa al nome a dominio.eu

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

Corso di Amministrazione di Sistema Parte I ITIL 1

Politica per la Sicurezza

Ciclo di vita dimensionale

Gestione del workflow

ARCHIVI E DATABASE (prof. Ivaldi Giuliano)

SQL Server Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

Il Modello Relazionale

Il modello di ottimizzazione SAM

BASI DI DATI - : I modelli di database

Basi di Dati Multimediali. Fabio Strocco

Progettazione concettuale

Informativa sulla privacy

Esistono differenti tipologie di report aziendali, a seconda della funzione per cui sono redatti e dei soggetti a cui si rivolgono

Transcript:

Data Quality Cinzia Cappiello 14/11/2005 Politecnico di Milano Perché la qualità dei dati è importante? La scarsa qualità dei dati si diffonde La scarsa qualità dei dati è costosa La qualità dei dati può essere migliorata La qualità dei dati può costituire un forte vantaggio competitivo 1

Motivazioni per una scarsa qualità dei dati Cambiamenti storici: l importanza di un dato può cambiare nel tempo Esempio: la data di nascita dei clienti per una compagnia assicurativa. Utilizzo dei dati: l importanza dei dati dipende dal processo in cui vengono utilizzati Esempio: processo operativo o decisionale Fusioni societarie: l integrazione dei dati può provocare difficoltà Leggi sulla privacy: molte nazioni proteggono la privacy degli individui. Arricchimento dei dati: è pericoloso arricchire i dati interni con sorgenti esterne. Un caso interessante di scarsa qualità Dicembre 2003 ponte tra Germania e Svizzera Gli svizzeri e tedeschi iniziarono a costruire un ponte di collegamento tra le due nazioni Nel punto di incontro trovarono che il ponte presentava un dislivello di 27 cm. Come mai? Il sistema tedesco prende come riferimento per misurare l altitudine il mar Baltico mentre il sistema svizzero il mar Mediterraneo. Inconsistenza tra formati Data quality problem!!! 2

Effetti della scarsa qualità dei dati (1) Diminuisce la soddisfazione della clientela Implica il sostenimento di costi alti e superflui Recenti studi hanno riportato che: Il costo diretto che un organizzazione deve sostenere per correggere errori nei dati ricevuti da una seconda organizzazione è il 6% del suo budget totale Il costo stimato che una compagnia deve sostenere per la scarsa qualità dei dati relativi alla clientela è circa il 6-14% dei ricavi Influenza i processi decisionali Implementare sistemi di data warehouse o data mining su dati di scarsa qualità è molto rischioso Effetti della scarsa qualità dei dati (2) Impedisce il re-engineering: in molti progetti di re-engineering la cosa fondamentale è individuare i dati giusti da collocare nel posto giusto al momento giusto per soddisfare le esigenze di un cliente. Ma se i dati individuati sono sbagliati, essi non possono essere di alcuna utilità al cliente Rende difficile una strategia a lungo termine 3

Analisi della qualità dei dati L analisi della qualità dei dati va condotta tramite quattro fasi principali: Definizione delle dimensioni di qualità Analisi dei dati Misurazione delle dimensioni di qualità Miglioramento della qualità dei dati Definizione delle dimensioni di qualità dei dati 4

Definizioni di Dati (1) 1. I dati sono un insieme di fatti: i dati sono rappresentazioni di eventi appartenenti al mondo reale. 2. I dati sono il risultato di misurazioni: i dati vengono definiti dall indicazione di come sono stati ottenuti 3. I dati sono le materie prime delle informazioni: i dati costituiscono l input di un processo che genera informazioni Definizioni di Dati (2) 4. I dati sono rappresentati da tre caratteristiche: <entità,attributo,valore> I dati sono rappresentazioni di oggetti appartenenti alla realtà. Ogni oggetto è rappresentato da un entità che è definita da degli attributi. Ogni attributo ha un dominio ammissibile di valori Es. Entità: studente Attributi: N_matricola, nome, cognome, data di nascita. Valori: nome stringa di caratteri (Mario, Paolo ecc.) data di nascita formato gg/mm/aaaa 5

Dimensioni di Qualità dei Dati Categoria Schema logico Valore dei dati Rappresentazione dei dati Contenuto Copertura Livello di dettaglio Accuratezza Completezza Appropriatezza Interpretabilità Portabilità Precisione del formato Dimensioni Composizione Consistenza Reazione al cambiamento Currency Consistenza Flessibilità del formato Abilità a rappresentare i valori nulli Uso efficiente della memoria (Redman 1996) Dimensioni - Accuratezza L accuratezza di un dato <e,a,v> si riferisce alla vicinanza del valore v ad un valore v che è considerato corretto per l entità e e l attributo a. Se v coincide con v allora il dato viene definito corretto. Una misura aggregata dell accuratezza può essere espressa come rapporto tra i valori corretti e il numero totale dei valori 6

Dimensioni - Completezza La completezza si riferisce al grado con cui una determinata entità è rappresentata all interno della base di dati La completezza può essere rappresentata dalla percentuale con cui i valori sono presenti in un insieme di dati Criticità nel trattamento del valore null, che può essere interpretato come: Valore sconosciuto di un attributo ( e indicatore di incompletezza) Un attributo non applicabile (e indicatore di completezza) Un attributo di sconosciuta applicabilità Valore speciale di un attributo (e indicatore di completezza) Dimensioni - Currency Age [Bovee et al. 2001] [Ballou et al. 1998] [Wang and Strong 1996] T origin T input T update T use t Currency è la misura del grado di aggiornamento di un dato. Un dato è non aggiornato se è incorretto al tempo t 1 ma era corretto al tempo t < t 1 [Redman 1996] 7

Dimensioni - Consistenza La consistenza è generalmente definita come la proprietà di diversi valori di non entrare in conflitto tra di loro. Problemi di consistenza si hanno quando due o più collezioni di dati si sovrappongono La consistenza è comunemente definita a tre livelli : Consistenza delle viste: definita come consistenza semantica, si riferisce alla consistenza tra gli attributi delle diverse entità considerate. Consistenza di valore: esamina conflitti tra valori dei dati. L inconsistenza si verifica quando due o più valori non possono essere corretti contemporaneamente. Es. città e c.a.p Consistenza della rappresentazione: si riferisce alla consistenza tra formati di rappresentazione Analisi dei dati 8

Analisi delle dimensioni di qualità L analisi delle dimensioni di qualità dei dati è vincolata all analisi del processo in cui dati vengono utilizzati. E necessario analizzare il processo di origine e individuare le attività che introducono errori o influenzano la qualità dei dati Il ciclo di vita dei dati (1) Il processo di memorizzazione visto come attività principale in un sistema informativo I sistemi possono essere classificati in relazione del ruolo dato alla memorizzazione dei dati: Se la memorizzazione dei dati è la fase finale, il sistema si dice di Acquisizione Attività di acquisizione 9

Il ciclo di vita dei dati (2) Se l accesso a dati memorizzati è l attività iniziale, il sistema si dice di Utilizzo Attività di utilizzo Il sistema si dice di tipo Combinato se i processi utilizzano e acquisiscono i dati Attività di acquisizione Attività di utilizzo Ciclo di acquisizione dei dati Le principali attività incluse nel ciclo di acquisizione sono le seguenti: Definire la view dei dati: una view è composta dalle parti del mondo reale che devono essere memorizzate. Devono essere specificate una o più entità con gli attributi relativi. Implementazione: dopo aver definito gli elementi che devono essere memorizzati, si devono tenere conto restrizioni e/o limitazioni imposte dal mezzo di memorizzazione e dal DBMS. Viene definito lo schema dei dati. Ottenere i valori: si acquisiscono i valori degli attributi delle singole istanze delle entità definite. Aggiornare record: i dati sono memorizzati in uno o più database. Il termine aggiornare include l inserimento di un nuovo record, cancellazione e modifica dei record esistenti 10

Ciclo di utilizzo Le principali attività incluse nel ciclo di utilizzo sono le seguenti: Definire una subview: tipicamente un processo di utilizzo userà solo una piccola parte dei dati disponibili. Si definisce il sottoinsieme di dati da utilizzare Recupero: i dati precedente memorizzati vengono recuperati Manipolazione: i dati recuperati vengono utilizzati come input in un processo di trasformazione che deve generare come output i dati soddisfacenti la richiesta di un utente Presentazione risultati: i risultati devono essere presentati all utente finale con una rappresentazione appropriata che dipende da molti fattori: la natura del risultato, il mezzo di visualizzazione, e le preferenze dell utente Utilizzo dei dati: L utilizzatore del dato potrà giudicare la qualità dello stesso Ciclo di vita modificato per il miglioramento della qualità dei dati (1) Per migliorare la qualità dei dati bisogna inserire: Valutazione (Assessment): in questa fase si valuta la qualità dei dati ottenuti. E necessario valutare le dimensioni legate ai valori dei dati: consistenza, accuratezza, currency, e completezza. Se i dati sono di qualità accettabile sono memorizzati, altrimenti attività correttive sono intraprese. Analisi: in questa fase vengono individuate le ragioni della bassa qualità dei dati riscontrata nella fase di valutazione Correzione: In molti casi, i dati insoddisfacenti possono essere corretti o migliorati Scarto: se un dato giudicato di bassa qualità non può essere corretto, dovrebbe essere scartato 11

Ciclo di vita modificato per il miglioramento della qualità dei dati (2) Definizione view Ottenimento valori Valutazione Implementazione Memorizzazione Scarto Analisi Ciclo di acquisizione Definizione sottoinsieme Recupero Valutazione Manipolazione presentazione Valutazione Uso Valutazione Analisi Ciclo di utilizzo Ottenere nuovi valori Cancella Ridefinire le viste Un metodo standard per l analisi l delle dimensioni di qualità: : IP-MAP Per fare l analisi delle dimensioni di qualità è necessario adottare meccanismi di data tracking Un Information Product MAP è un modello grafico progettato per aiutare a comprendere, valutare e descrivere il modo in cui un informazione viene assemblata Il prodotto informativo viene generato da due elementi principali: Raw data items: dati elementari utilizzati per creare l informazione finale Component data items: informazioni intermedie necessarie per produrre il prodotto finale 12

Costruzione e utilizzo di IPMAP La costruzione e l utilizzo di IP-MAP si compone di cinque fasi: Catalogare i prodotti informativi Si definisce la natura del prodotto, chi lo utilizza, quando si utilizza, qual è il processo che permette di creare il prodotto ecc. Identificazione dei prodotti informativi critici: prodotti che non possono riportare errori in quanto si causerebbero danni agli utenti del processo Definizione dei requisiti di qualità Costruzione IP-MAP Definizione e miglioramento della qualità del prodotto informativo Costruzione di IP-MAP: blocchi principali Nome blocco Source (raw input block) Customer (output) block Data Quality block Processing block Data Storage block Decision block Business Boundary block Information System Boundary block Simbolo Significato Blocco usato per rappresentare la sorgente di ogni raw data che può essere utilizzata per produrre il prodotto informativo Blocco usato per rappresentare gli utenti del prodotto informativo. L utente specifica i dati che costituiscono il prodotto finito Blocco utilizzato per rappresentare i punti in cui è necessario eseguire dei controlli sulla qualità dei dati Blocco utilizzato per rappresentare ogni manipolazione, calcolo o azione che interessa qualche raw data Blocco usato per rappresentare la memorizzazione di dati in file o basi di dati Blocco utilizzato per rappresentare delle condizioni che devono essere valutate prima di attivare specifiche procedure Blocco utilizzato per specificare il passaggio delle informaizoni attraverso diversi dipartimenti o organizzazioni Blocco utilizzato per specificare le trasformazioni che i dati devono subire passando da un sistema informativo a un altro 13

Account data Account activities Account management Customer data Credit Card Extraction Extraction Extraction Extraction Extraction CD 3 CD 4 CD 2 CD 1 CD 5 Integration CD 6 Transformation CD 7 Global account RD 11 View and print balances Account activities Send a request Send a request Query definition Extraction Aggregation CD 8 CD 9 Open a saving account Move money Insert data customer Insert transfer request Elaborate from Home banking application Pay bills Insert transfer request Format data Report definition CD 10 Choice service IP 1 RD 1 Customer accesses Home banking service Customer view accounts activities Misurazione delle dimensioni di qualità 14

Processo di misurazione Il processo di misurazione risulta complesso dal momento che non ci sono algoritmi precisi per il calcolo delle singole dimensioni Algoritmi consolidati esistono per le dimensioni: Completezza Accuratezza Currency (e timeliness) Completezza Considerando un attributo in una tupla t e il suo valore v: se v= null completezza (v)=0 se v <> null completezza (v)=1 Completezza della tupla può essere calcolate come: Completezza( t) = i= 1 completezza( v ) Dove N è il numero di attributi che compongono lo schema N N i 15

Accuratezza L accuratezza si misura considerando una sorgente di benchmark e paragonando i valori contenuti all interno del database v i con valori di benchmark considerati corretti. se v = v ' accuratezza( v ) = 1 L accuratezza totale risulta: i i i se v v ' accuratezza( v ) = 0 Accuratezza( t) = i N i= 1 accuratezza( v ) N i i i Currency e timeliness La currency è comunemente associata alla data dell ultimo aggiornamento. La currency viene utilizzata nel calcolo della timeliness La timeliness è la dimensione che rivela il grado di aggiornamento dei dati : currency( v ) i Timeliness( vi ) = max 1 ;0 volatility( vi ) 16

Altre misurazioni utili per la valutazione della qualità Oltre alla valutazione diretta delle dimensioni di qualità dei dati attraverso: La valutazione dei valori dei dati e dei tipi La loro vicinanza a valori di riferimento La verifica di assenza di duplicati La verifica di correttezza secondo le regole di integrità referenziale è importante anche analizzare i dati all interno del processo, in particolare: Le caratteristiche dei dati: si verifica che i valori dei dati siano conformi a regole di funzionamento dello specifico processo Analisi dei protocolli di sistema (es. numero di record non aggiornati) Il volume dei dati trattati: le analisi mirano a identificare anomalie nell utilizzo dei dati o periodicità Plausibilità (es. distribuzione dei dati) Verifica dei dati con altri sistemi e sorgenti Inoltre bisogna considerare: La valutazione fatta dagli utenti utilizzatori dei dati e dai clienti dell organizzazione misurabile ad esempio attraverso le lamentele o diversi riscontri Valutazioni fatte manualmente attraverso procedure di valutazione standard e tecniche varie Caratteristiche dei dati (Esempio) Credit authorisation 01.02.1998 Payout before authorisation 01.06.1997 01.01.1998 01.01.2002 Authorisation expired Credit Payout 17

Analisi del volume dei dati (Numero dei record)? Miglioramento della qualità dei dati 18

Strategie per il miglioramento della qualità dei dati Ci sono tre approcci che permettono di migliorare la qualità dei dati del proprio sistema: Ispezione e correzione: i dati sono controllati e confrontati con standard di qualità, gli elementi che non sono ritenuti idonei vengono scartati o corretti fino a quando non passano il controllo Miglioramento e controllo dei processi: l obiettivo è identificare e eliminare le cause di errori Progettazione dei processi: nella fase di progettazione si tiene conto della qualità Ispezione e correzione Laissez-faire: i clienti trovano gli errori e l impresa cerca di correggerli Confronto dei valori con le controparti del mondo reale: tecnica molto costosa e lunga. Non aiuta a prevenire gli errori futuri Database bashing: confronta i record fra due o più database. Ha tre svantaggi principali: L assunzione che i dati che coincidono siano uguali non è sempre corretta I dati usati come termine di confronto potrebbero essere di per sé sbagliati Non previene gli errori futuri Data edits: sono procedure automatiche che verificano che i valori dei dati e/o la loro rappresentazione soddisfino predeterminati vincoli. Questi vincoli sono a volte chiamati business rules 19

Miglioramento e controllo dei processi Diverse tecniche di gestione dei processi possono essere applicate alla catena di creazione dell informazione. Metodi che attraverso l uso di edits e data tracking effettuano le misurazioni delle performance dei processi Applicati alla catena dell'informazione gli edit possono visualizzare certi tipi di errore prima ancora che siano riportati nel database Per migliorare il processo, viene gestito un log dei fallimenti, che può essere studiato per determinare i pattern di errore e eliminare le cause. Progettazione dei processi Progettazione dei processi consiste nel fare processi che siano a prova di errore Vengono direttamente inseriti nel processo degli strumenti di misurazione che consentono di controllare e migliorare il processo dall interno del processo stesso. Utilizzo dell IT per minimizzare le attività di interazione diretta tra l utente e il dato per quelle operazioni considerate più a rischio (es. data entry, cambio di formato, ecc.) 20

Riepilogo dei principali metodi per il miglioramento di DQ Laissez-faire Metodo Confronto dei valori con le controparti del mondo reale Database bashing, one time Database bashing, ongoing Cleaning, usando data edits, one time Cleaning, usando data edits, ongoing Miglioramento e controllo dei processi Miglioramento Breve Termine Basso Alto Medio Medio Medio Medio Medio Lungo termine Basso Basso Basso Medio Basso Medio Alto Progettazione di processi a Medio Alto prova di errore Costi totali Breve Termine Alto Alto Medio Medio Medio Medio Medio Medio Lungo termine Alto Alto Alto Molto Alto Alto Alto Basso Molto Alto Dati non importanti Per valutare livelli di qualità correnti Quando un secondo DB è disponibile Mai Su dati che non vengono aggiornati spesso Mai Quando è appropriato Su dati che vengono creati o aggiornati frequentemente Ogni volta che un nuovo processo viene progettato o re-ingegnerizzato Metodi per il miglioramento della qualità dei dati alta Frequenza di cambiamento Proactive Data Quality Management bassa Laissez faire Data Cleansing bassa alta Rilevanza dei dati Le misure proattive sono sempre quelle da preferire [de Fries, Seidl und Windheuser 1999] 21

Data Quality Management Quality Philosophy Quality Culture Data Quality Policy Data Quality Strategy Strategic Management Data Quality Planning Data Quality Control Definition and Specification of quality objectives Feedback and control Operative Management Information Management [Helfert, Herrmann 2003] Data Quality Management è più che Data Cleaning! 6% 59% 35% Data Cleansing DQM Both (Cleansing & DQM) [Helfert 2002] Definire obiettivi di qualità Analizzare l esistente qualità dei dati Identificare le cause e gli effetti della scarsa qualità dei dati Analizzare il costo e i benefici della qualità dei dati Sviluppare misure per migliorare la qualità dei dati 22

External Transaction oriented s(call Center, WWW-Portal, CRM) Operative Data Sources Non relational other DB 2 Net ORACLE Operational Data Store Transformation Component Data Warehouse Data Base Data Warehouse Data Base Data Marts End-User-Tools BERI CH T ' EI NNAH ME N U ND A USG ABEN ' 01. 0 1. 19 96 b i s 0 1. 03. 19 96 Es s e n 40, 34% Son s t i g e 3 3, 08 % Fr ei ze i t 10, 63% St ud i um 15, 95% Il concetto di DQM proattivo Definizione dei requisiti di qualità dei dati Misurazione del livello corrente di qualià Requisiti Processo organizzativo Valori di qualità Struttura organizzativa (ruoli e responsabilità) Extraction, Transformation, Loading Tecniche e strumenti Cambio di sistema Standard e regole Efficacia Efficienza Identificazione e passi Implementativi per migliorare Continuamente la qualità dei dati Analisi Cause Mancanza di dati Analisi Effetti e implicazioni Diversi approcci per diversi tipi di sistemi informativi Le problematiche relative alla qualità dei dati sono diverse a seconda del sistema informativo in cui si opera: Centralizzati Distribuiti Sistemi informativi direzionali di tipo data warehouse 23

SI centralizzati Ipotizziamo che in questi sistemi si operi con un unico database. Per selezionare il miglior metodo di miglioramento dei dati dobbiamo valutare il turnover dei parametri: frequenza delle creazione e aggiornamento dei dati Se il turnover dei parametri è alto metodo di miglioramento e controllo dei processi Se il turnover dei parametri è basso metodo di ispezione e correzione Se il turnover dei parametri è medio o misto Prima si applicano metodi di miglioramento e controllo dei processi e poi metodi di ispezione e correzione In tutti i casi ogni volta che si progetta un nuovo processo, si inseriscono nello stesso procedure per il controllo della qualità dei dati SI distribuiti In questi sistemi i dati da migliorare sono contenuti in più database. Si possono presentare tre casi: I dati contenuti nei database non si sovrappongono per ogni database sono valide le considerazioni fatte per il SI centralizzato I dati sono contenuti sia nel database A che B ma il database B utilizza il database A come sorgente per il database A sono valide le considerazioni fatte per i SI centralizzati e B eredita le correzioni I dati sono contenuti in più database ma manipolati da processi diversi. Più alternative: Tenere i database divisi e usare periodicamente una tecnica di database bashing (sconsigliato) Rivedere la composizione dei processi e controllare se è proprio necessario mantenere la gestione dei database separata Cercare di instaurare fra i due database un rapporto di master/slave 24

Sistemi informativi direzionali di tipo data warehouse Metà dei costi associati all implementazione di un data warehouse sono imputabili alla scarsa qualità dei dati I sistemi con data warehouse aumentano la ridondanza dei dati, un generico processo per sviluppare un piano operazionale mirato al miglioramento dei dati si compone dei seguenti passi: Analisi della strategia di business, dei problemi noti, dei tassi di errore e dei costi Selezione dei dati da cui si riescono a definire i requisiti di qualità e determinazione delle basi di dati e processi ad essi associati Selezionare i database principali (master databases) Eliminazione dei processi ridondanti Applicare il metodo di miglioramento opportuno (caso SI centralizzato) In dettaglio: problemi di qualità dei dati nei data warehouse 25

BERI CH T ' EINNAH M EN UND AUS G ABEN' 01. 01. 19 9 6 b i s 0 1. 0 3. 1 9 96 S o ns t i g e 3 3, 08 % Fr e i z e i t 1 0, 6 3 % S t ud i um 15, 9 5% Ess e n 40, 34 % BERI CH T ' EI NNAH M EN UND AUSG ABEN' 0 1. 0 1. 1 99 6 b i s 0 1. 0 3. 19 9 6 So n s t i ge 3 3, 0 8% F r ei z ei t 10, 63 % S t ud i um 1 5, 9 5 % Es s e n 4 0, 3 4% La scarsa qualità dei dati è percepita attraverso inconsistenze... Qual è il vero valore dell informazione per i clienti? Osservazione diretta Rappresentazione del Sistema Informativo Mondo reale Operative Data Transformation Data Warehouse Sources Component Data Base External Net ORACLE Data Warehouse DB 2 Data Base other Non relational Extraction, Transformation, Loading Data Marts End-User-Tools Interpretazione data user s Percezione data user s dei real real world dati da world parte degli perception perception utenti Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Inconsistenze percepite Scarsa qualità dei dati percepita [ see also Wand, Wang 1996] Problemi chiave di qualità dei dati Estrazione e interpretazione dati operazionali Integrazione di diversi sistemi operazionali Applicazione / (Interpretazione dati lato utente) Trasferimento dati Acquisizione dati Operative Data Sources Transformation Component Data Warehouse Data Base Data Marts End-User-Tools External Non relational Net ORACLE DB 2 other Extraction, Transformation, Loading Data Warehouse Data Base Transaction oriented s(call Center, WWW-Portal, CRM) Operational Data Store 26

Interpretazione dati (Esempio)... Name Date of Birth Product Price Day...... Keane 09/03/70 AB 14.3 SFR 6...... O Conner AC 27.2 EUR 7...... O Conner 14/07/65 BB 7...... Schmidt 1/1/11 AC 26.2 EUR 10...... Keane 09/03/70 BA??? 14... Duplicati/ridondanze Uso di valori di default... C# Name Date of Birth...... 1 Keane 09/03/70... O Conne... 2 14/07/65... r... 3 Schmidt Null............... Codice non esplivativo C# P-Cat. 1 A 2 A 2 B Problemi di formato Incompletezza Referenza temporale impliita P# Cur. Price Date... 2 SFR 14.30 06/11/00... 3 EUR 27.20 07/11/00... 2 EUR 12.42 07/11/00......... 3 A 1 B 3 SFR 26.20 10/11/00... 1 Null Null 14/11/00... Approcci per l estrazione l e trasferimento dei dati Frequentemente risolti in cooperazione con i dipartimenti operativi Spesso gli errori vengono automaticamente risolti nel processo di trasferimento dati Feedback dei problemi di qualità dei dati Data Warehouse Semantic Syntax Sviluppo di una logica di trasformazione per il trasferimento dati (mapping) Fornitura dei dati secondo gli standard concordati Conoscenza implicita Op. System Semantic Syntax Scarsa qualità dei dati (ma tollerata a livello operativo) Sviluppo di definizioni esatte (descrizione dati, origine dei dati, formato dei dati) 27

Problemi di integrazione (Esempio) Tabelle con dati ridondanti (indirizzo) in diversi sistemi operazionali... Name Street ZIP City Phone Fax...... O Conner Ballymon Rd. 5 9 Dublin 4454 2156...... Ahern Griffen Av. 24 Galway 5464 2345... Correct address data Office information... Name Street ZIP City Phone Fax...... O Conner Finglass Rd. 123 9 Dublin 087 244 7148 -...... Ahern Galway 09 224 3382 09 224 2189... Private information I dati sono raccolti per diversi scopi La standardizzazione può disturbare i processi organizzativi a livello operativo I problemi di integrazione sono... Molto complessi e costosi in termine di tempo, dal momento che diverse unità organizzative sono coinvolte (lunghe procedure decisionali, analisi complessa dei problemi, fattori politici) Difficili da analizzare e quindi implicano un alto rischio di progetto Sono causati maggiormente da problemi organizzativi piuttosto che tecnici, e.g. Mancanza di attenzione per la qualità dei dati e dell informazione Mancanza di standard / procedure per lo sviluppo di applicazioni Sviluppo indipendente dei concetti organizzativi e di sistema Addestramento del personale insufficiente Sicurezza delle informazioni 28

Processo di trasferimento e consistenza temporale Real world Data- Warehouse- Database Operational Systems [Helfert 2002] Un caso di studio: qualità dei dati in un istituto finanziario 29

Il caso di studio Obiettivi del progetto: Analizzare la situazione corrente di qualità dei dati Analizzare i requisiti di qualità dei dati degli utenti finali Sviluppare un sistema concettuale di qualità dei dati per la banca Definizione di una serie di regole per gestire la qualità dei dati per specifiche aree applicative Incentivare del trattamento della qualità dei dati e guadagnare l attenzione da parte dell intera direzione aziendale Sviluppo di una strategia orientata alla qualità dei dati [Helfert 2002] 30

l B ERI CH T ' EI NNAH M E N UND AUS G ABE N' 01. 01. 1 996 b i s 01. 0 3. 1 99 6 Son s t i g e 33, 08 % Fr ei z ei t 1 0, 63% St u di um 1 5, 9 5% E s s en 4 0, 34% Esempi di regole operative per il controllo della qualità ----------------------------------------------------------------------- >conta tutti i conti correnti che sono stati chiusi ma a cui Non è associata nessuna data di chiusura ----------------------------------------------------------------------- select count(account_id) from pkw_accounts where substr(appl_flags_1,8,1) = '1' and account_closing_date is null ----------------------------------------------------------------------- >GESTIONE DI ECCEZIONE: tra marzo 2001 e Dicembre 2001 la tabella cr_col_cat >è aumentata da 10000 a 12000 righe per mese. >EXCEPTION: >In gennaio 2002 ci si aspetta un aumento solo di un terzo delle righe del mese precedente. ----------------------------------------------------------------------- select count (*) from cr_col_cat a where a.date_per = to_date('31.01.2002','dd.mm.yyyy') Data Cleansing (passi principali) Documentazione (documentare i risultati del passo del processo di dati cleansing in metadati) Householding (combinare record individuali che sono attribuiti allo stesso indirizzo) Trasformazione dei dati (es.1 per uomini, e 2 per donne diventano M e F) Record matching (determinare se due record si riferiscono allo stesso soggetto) Correzione e verifica dei dati (confronta i dati con liste certificate, es. Codici postali, liste di prodotti) Standardizzazione (adottare formati standard per alcuni valori dei dati) Parsing (scomporre il record in unità atomiche) Datenquellen Data Warehouse Datenbank Data Marts Transformationskomponente End-User- Werkzeuge [Neely 1998] External Net ORACL E DB 2 other Non relationa Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Extraction, Transformation, Loading Data Warehouse Data Base 31

Esempi di specifiche per la qualità (regole) Criteria Approach Example Domain and attribute Value corresponds specified Data type / format Value is within range of values DateOfBirth IS Date 01.01.1950 <= DateOfBirth <= Today Obligatory fields (missing values) DateOfBirth NOT NULL Plausibility Record and relation Referential integrity Relations between records Key values are unique Foreign key relations (Product#= 4x AND CustomerCode = 1x) credit_balance >= 10000 Account# NOT NULL AND UNIQUE Account.Customer# IN Customer.Customer# Sum of credit balances from system A is equivalent to former balance + account movements Other integrity constrains Relations between different attributes Average balance is related to Number of Customers (e.g. Average Credit_Balance is within a plausibility interval dependent on Number of Customers) Data volumes (Number of records) Number of account movements are within a plausibility interval (e.g. 100000 <= (COUNT (*) FROM Account WHERE Transaktion_Date = Today) <= 110000) Test for execution of scheduled Tecnologie Timeliness per i Sistemi Informativi, Transfer 2005- Processes Transfer process T is at scheduled time t completed (e.g. scheduled_time = start_time AND Status = completed ) Esempio di analisi dei dati Città City Data di of nascita Birth St. Gallen 01.01.1800 01.01.1950 32

Modifiche nei processi: ciclo di pianificazione e controllo della qualità dei dati [Helfert, Herrmann 2003] Modifiche nei processi: Pianificazione della qualità dei dati [Helfert, Herrmann 2003] 33

Modifiche nei processi: controllo della qualità dei dati [Helfert, Herrmann 2003] database Valori di tolleranza: 0-10 10-30 > 30 Azione da effettuare in caso di violazione delle regole? Risultati attesi Casi di test e regole SQL-Script Notifica: e-mail History log file [Winter, Helfert, Herrmann 2002] 34

Utilizzo effettivo del sistema implementato: indagine dei clienti dell istituto finanziario Indagine dei clienti Gestione del rischio Reputazione Legale Operazionale Si investiga per la riduzione del rischio Frequenza e Qualità dell indagine Sui clienti Lotta contro il terrorismo Implementare misure per contrastare il finanziamento del terrorismo Preliminare identificazione dei terroristi fra I clienti Mezzi per contrastare il riciclo di denaro Monitoraggio delle transazioni Indagini Si indagano clienti che effettuano transazioni sospette 35

Problema: : un nome non è un identificatore unico Esempio: Hans Müller 1190 matches Hans Müller, 1965 26 matches Hans Müller, Zurigo 58 matches Hans Müller, Zurigo, 1965 1 match Problema: affrontare diversi problemi di qualità dei dati Esterne Esempio: In molti nomi stranieri si ha difficoltà nel capire quale sia il cognome Definizione della data di nascita Interne Esempio: Crescita incrementale del sistema Date di nascita inserite in modo automatico (es. 1.1.1900) Typos (es. Smith -> Simth) Inserimento di campi che consentono l inserimento di testo libero nel sistema 36

Problema: : Un nome può essere scritto in diversi modi Individuo #1 - Adnan El Shukrijumah Name Component Variant Form Relative Frequency Interpretazione dei nomi dipende dal contesto sociale e culturale ADNAN ADNAN COMMON ADNANE COMMON ALADNAN LESS COMMON EL SHUKRI SHUKRI COMMON SHOUKRY COMMON SHOKRY COMMON SHOKRI LESS COMMON CHOUKRI LESS COMMON SHUKRY LESS COMMON SHOUKRI LESS COMMON CHUKRI LESS COMMON ALSHUKRI LESS COMMON CHOUKRY LESS COMMON CHOQRI LESS COMMON JUMAH JUMA COMMON GOMAA COMMON JUMAH COMMON JOMAA COMMON ALJUMAH COMMON JUMAA COMMON ALJUMA COMMON ALJUMAAH COMMON JOUMAA LESS COMMON JOMAH LESS COMMON GOMA LESS COMMON ALJOMAH LESS COMMON GOMMA LESS COMMON JUMAAH LESS COMMON ALJOMAAH LESS COMMON Example courtesy of Tobi Moriarty / tmoriarty@las-inc.com / www.las-inc.com Problema: controllo dei dati inseriti World-Check Updates per Day (October 2003 - January 2004) 3000 2500 2000 Updates 1500 Average: 240 Updates / Inserts per Day 1000 500 0 01.10.2003 08.10.2003 15.10.2003 22.10.2003 29.10.2003 05.11.2003 12.11.2003 19.11.2003 26.11.2003 03.12.2003 Dates I controlli iniziali non bastano, i dati possono essere soggetti a modifiche, ci vuole monitoraggio! 10.12.2003 17.12.2003 24.12.2003 31.12.2003 07.01.2004 14.01.2004 21.01.2004 37

Come è stato modificato il processo. Investigations & Inquiries Inquirer E stato adottato un processo breve e efficiente Una sola interfaccia al sistema Utilizzo del data warehouse descritto precedentemente Evoluzione del processo di indagine <2002 2002 2003 telefono - FAX email telefono - FAX 40+ standard di interrogazione Consultazione parallela dello stesso sistema Coinvolgimento di terze parti solo se necessario ma si possono consultare da un unica postazione più di 16 basi di dati differenti Tutti i dati necessari accessibili Da un unico sistema 38

Il nuovo processo: l applicazione trova i nomi scritti in modo errato Visualizzazione dei dettagli dei clienti 39

L applicazione per la ricerca di un azienda Visualizzazione dei dettagli delle aziende 40

L applicazione che consente di trovare i possibili clienti sospetti oltre all applicazione applicazione Migliorare l interfaccia di inserimento dati nello strumento attraverso cui si inseriscono i dati della clientela (evitare campi memo, eseguire controlli preliminari ecc.) Ridurre il numero dei campi per la ricerca dei nomi (es. meta-database) Usabilità: pensare prima a falsi positivi e poi a confronti reali Se utile, aggiungere informazioni provenienti da terze parti nel sistema, per supportare il processo decisionale Bilanciare l utilizzo dei tre ingredienti: dati, utente e algoritmi 41