Data Quality. Cinzia Cappiello 14/11/2005 Politecnico di Milano. Tecnologie per i Sistemi Informativi,

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data Quality. Cinzia Cappiello 14/11/2005 Politecnico di Milano. Tecnologie per i Sistemi Informativi, 2005-2006"

Transcript

1 Data Quality Cinzia Cappiello 14/11/2005 Politecnico di Milano Perché la qualità dei dati è importante? La scarsa qualità dei dati si diffonde La scarsa qualità dei dati è costosa La qualità dei dati può essere migliorata La qualità dei dati può costituire un forte vantaggio competitivo 1

2 Motivazioni per una scarsa qualità dei dati Cambiamenti storici: l importanza di un dato può cambiare nel tempo Esempio: la data di nascita dei clienti per una compagnia assicurativa. Utilizzo dei dati: l importanza dei dati dipende dal processo in cui vengono utilizzati Esempio: processo operativo o decisionale Fusioni societarie: l integrazione dei dati può provocare difficoltà Leggi sulla privacy: molte nazioni proteggono la privacy degli individui. Arricchimento dei dati: è pericoloso arricchire i dati interni con sorgenti esterne. Un caso interessante di scarsa qualità Dicembre 2003 ponte tra Germania e Svizzera Gli svizzeri e tedeschi iniziarono a costruire un ponte di collegamento tra le due nazioni Nel punto di incontro trovarono che il ponte presentava un dislivello di 27 cm. Come mai? Il sistema tedesco prende come riferimento per misurare l altitudine il mar Baltico mentre il sistema svizzero il mar Mediterraneo. Inconsistenza tra formati Data quality problem!!! 2

3 Effetti della scarsa qualità dei dati (1) Diminuisce la soddisfazione della clientela Implica il sostenimento di costi alti e superflui Recenti studi hanno riportato che: Il costo diretto che un organizzazione deve sostenere per correggere errori nei dati ricevuti da una seconda organizzazione è il 6% del suo budget totale Il costo stimato che una compagnia deve sostenere per la scarsa qualità dei dati relativi alla clientela è circa il 6-14% dei ricavi Influenza i processi decisionali Implementare sistemi di data warehouse o data mining su dati di scarsa qualità è molto rischioso Effetti della scarsa qualità dei dati (2) Impedisce il re-engineering: in molti progetti di re-engineering la cosa fondamentale è individuare i dati giusti da collocare nel posto giusto al momento giusto per soddisfare le esigenze di un cliente. Ma se i dati individuati sono sbagliati, essi non possono essere di alcuna utilità al cliente Rende difficile una strategia a lungo termine 3

4 Analisi della qualità dei dati L analisi della qualità dei dati va condotta tramite quattro fasi principali: Definizione delle dimensioni di qualità Analisi dei dati Misurazione delle dimensioni di qualità Miglioramento della qualità dei dati Definizione delle dimensioni di qualità dei dati 4

5 Definizioni di Dati (1) 1. I dati sono un insieme di fatti: i dati sono rappresentazioni di eventi appartenenti al mondo reale. 2. I dati sono il risultato di misurazioni: i dati vengono definiti dall indicazione di come sono stati ottenuti 3. I dati sono le materie prime delle informazioni: i dati costituiscono l input di un processo che genera informazioni Definizioni di Dati (2) 4. I dati sono rappresentati da tre caratteristiche: <entità,attributo,valore> I dati sono rappresentazioni di oggetti appartenenti alla realtà. Ogni oggetto è rappresentato da un entità che è definita da degli attributi. Ogni attributo ha un dominio ammissibile di valori Es. Entità: studente Attributi: N_matricola, nome, cognome, data di nascita. Valori: nome stringa di caratteri (Mario, Paolo ecc.) data di nascita formato gg/mm/aaaa 5

6 Dimensioni di Qualità dei Dati Categoria Schema logico Valore dei dati Rappresentazione dei dati Contenuto Copertura Livello di dettaglio Accuratezza Completezza Appropriatezza Interpretabilità Portabilità Precisione del formato Dimensioni Composizione Consistenza Reazione al cambiamento Currency Consistenza Flessibilità del formato Abilità a rappresentare i valori nulli Uso efficiente della memoria (Redman 1996) Dimensioni - Accuratezza L accuratezza di un dato <e,a,v> si riferisce alla vicinanza del valore v ad un valore v che è considerato corretto per l entità e e l attributo a. Se v coincide con v allora il dato viene definito corretto. Una misura aggregata dell accuratezza può essere espressa come rapporto tra i valori corretti e il numero totale dei valori 6

7 Dimensioni - Completezza La completezza si riferisce al grado con cui una determinata entità è rappresentata all interno della base di dati La completezza può essere rappresentata dalla percentuale con cui i valori sono presenti in un insieme di dati Criticità nel trattamento del valore null, che può essere interpretato come: Valore sconosciuto di un attributo ( e indicatore di incompletezza) Un attributo non applicabile (e indicatore di completezza) Un attributo di sconosciuta applicabilità Valore speciale di un attributo (e indicatore di completezza) Dimensioni - Currency Age [Bovee et al. 2001] [Ballou et al. 1998] [Wang and Strong 1996] T origin T input T update T use t Currency è la misura del grado di aggiornamento di un dato. Un dato è non aggiornato se è incorretto al tempo t 1 ma era corretto al tempo t < t 1 [Redman 1996] 7

8 Dimensioni - Consistenza La consistenza è generalmente definita come la proprietà di diversi valori di non entrare in conflitto tra di loro. Problemi di consistenza si hanno quando due o più collezioni di dati si sovrappongono La consistenza è comunemente definita a tre livelli : Consistenza delle viste: definita come consistenza semantica, si riferisce alla consistenza tra gli attributi delle diverse entità considerate. Consistenza di valore: esamina conflitti tra valori dei dati. L inconsistenza si verifica quando due o più valori non possono essere corretti contemporaneamente. Es. città e c.a.p Consistenza della rappresentazione: si riferisce alla consistenza tra formati di rappresentazione Analisi dei dati 8

9 Analisi delle dimensioni di qualità L analisi delle dimensioni di qualità dei dati è vincolata all analisi del processo in cui dati vengono utilizzati. E necessario analizzare il processo di origine e individuare le attività che introducono errori o influenzano la qualità dei dati Il ciclo di vita dei dati (1) Il processo di memorizzazione visto come attività principale in un sistema informativo I sistemi possono essere classificati in relazione del ruolo dato alla memorizzazione dei dati: Se la memorizzazione dei dati è la fase finale, il sistema si dice di Acquisizione Attività di acquisizione 9

10 Il ciclo di vita dei dati (2) Se l accesso a dati memorizzati è l attività iniziale, il sistema si dice di Utilizzo Attività di utilizzo Il sistema si dice di tipo Combinato se i processi utilizzano e acquisiscono i dati Attività di acquisizione Attività di utilizzo Ciclo di acquisizione dei dati Le principali attività incluse nel ciclo di acquisizione sono le seguenti: Definire la view dei dati: una view è composta dalle parti del mondo reale che devono essere memorizzate. Devono essere specificate una o più entità con gli attributi relativi. Implementazione: dopo aver definito gli elementi che devono essere memorizzati, si devono tenere conto restrizioni e/o limitazioni imposte dal mezzo di memorizzazione e dal DBMS. Viene definito lo schema dei dati. Ottenere i valori: si acquisiscono i valori degli attributi delle singole istanze delle entità definite. Aggiornare record: i dati sono memorizzati in uno o più database. Il termine aggiornare include l inserimento di un nuovo record, cancellazione e modifica dei record esistenti 10

11 Ciclo di utilizzo Le principali attività incluse nel ciclo di utilizzo sono le seguenti: Definire una subview: tipicamente un processo di utilizzo userà solo una piccola parte dei dati disponibili. Si definisce il sottoinsieme di dati da utilizzare Recupero: i dati precedente memorizzati vengono recuperati Manipolazione: i dati recuperati vengono utilizzati come input in un processo di trasformazione che deve generare come output i dati soddisfacenti la richiesta di un utente Presentazione risultati: i risultati devono essere presentati all utente finale con una rappresentazione appropriata che dipende da molti fattori: la natura del risultato, il mezzo di visualizzazione, e le preferenze dell utente Utilizzo dei dati: L utilizzatore del dato potrà giudicare la qualità dello stesso Ciclo di vita modificato per il miglioramento della qualità dei dati (1) Per migliorare la qualità dei dati bisogna inserire: Valutazione (Assessment): in questa fase si valuta la qualità dei dati ottenuti. E necessario valutare le dimensioni legate ai valori dei dati: consistenza, accuratezza, currency, e completezza. Se i dati sono di qualità accettabile sono memorizzati, altrimenti attività correttive sono intraprese. Analisi: in questa fase vengono individuate le ragioni della bassa qualità dei dati riscontrata nella fase di valutazione Correzione: In molti casi, i dati insoddisfacenti possono essere corretti o migliorati Scarto: se un dato giudicato di bassa qualità non può essere corretto, dovrebbe essere scartato 11

12 Ciclo di vita modificato per il miglioramento della qualità dei dati (2) Definizione view Ottenimento valori Valutazione Implementazione Memorizzazione Scarto Analisi Ciclo di acquisizione Definizione sottoinsieme Recupero Valutazione Manipolazione presentazione Valutazione Uso Valutazione Analisi Ciclo di utilizzo Ottenere nuovi valori Cancella Ridefinire le viste Un metodo standard per l analisi l delle dimensioni di qualità: : IP-MAP Per fare l analisi delle dimensioni di qualità è necessario adottare meccanismi di data tracking Un Information Product MAP è un modello grafico progettato per aiutare a comprendere, valutare e descrivere il modo in cui un informazione viene assemblata Il prodotto informativo viene generato da due elementi principali: Raw data items: dati elementari utilizzati per creare l informazione finale Component data items: informazioni intermedie necessarie per produrre il prodotto finale 12

13 Costruzione e utilizzo di IPMAP La costruzione e l utilizzo di IP-MAP si compone di cinque fasi: Catalogare i prodotti informativi Si definisce la natura del prodotto, chi lo utilizza, quando si utilizza, qual è il processo che permette di creare il prodotto ecc. Identificazione dei prodotti informativi critici: prodotti che non possono riportare errori in quanto si causerebbero danni agli utenti del processo Definizione dei requisiti di qualità Costruzione IP-MAP Definizione e miglioramento della qualità del prodotto informativo Costruzione di IP-MAP: blocchi principali Nome blocco Source (raw input block) Customer (output) block Data Quality block Processing block Data Storage block Decision block Business Boundary block Information System Boundary block Simbolo Significato Blocco usato per rappresentare la sorgente di ogni raw data che può essere utilizzata per produrre il prodotto informativo Blocco usato per rappresentare gli utenti del prodotto informativo. L utente specifica i dati che costituiscono il prodotto finito Blocco utilizzato per rappresentare i punti in cui è necessario eseguire dei controlli sulla qualità dei dati Blocco utilizzato per rappresentare ogni manipolazione, calcolo o azione che interessa qualche raw data Blocco usato per rappresentare la memorizzazione di dati in file o basi di dati Blocco utilizzato per rappresentare delle condizioni che devono essere valutate prima di attivare specifiche procedure Blocco utilizzato per specificare il passaggio delle informaizoni attraverso diversi dipartimenti o organizzazioni Blocco utilizzato per specificare le trasformazioni che i dati devono subire passando da un sistema informativo a un altro 13

14 Account data Account activities Account management Customer data Credit Card Extraction Extraction Extraction Extraction Extraction CD 3 CD 4 CD 2 CD 1 CD 5 Integration CD 6 Transformation CD 7 Global account RD 11 View and print balances Account activities Send a request Send a request Query definition Extraction Aggregation CD 8 CD 9 Open a saving account Move money Insert data customer Insert transfer request Elaborate from Home banking application Pay bills Insert transfer request Format data Report definition CD 10 Choice service IP 1 RD 1 Customer accesses Home banking service Customer view accounts activities Misurazione delle dimensioni di qualità 14

15 Processo di misurazione Il processo di misurazione risulta complesso dal momento che non ci sono algoritmi precisi per il calcolo delle singole dimensioni Algoritmi consolidati esistono per le dimensioni: Completezza Accuratezza Currency (e timeliness) Completezza Considerando un attributo in una tupla t e il suo valore v: se v= null completezza (v)=0 se v <> null completezza (v)=1 Completezza della tupla può essere calcolate come: Completezza( t) = i= 1 completezza( v ) Dove N è il numero di attributi che compongono lo schema N N i 15

16 Accuratezza L accuratezza si misura considerando una sorgente di benchmark e paragonando i valori contenuti all interno del database v i con valori di benchmark considerati corretti. se v = v ' accuratezza( v ) = 1 L accuratezza totale risulta: i i i se v v ' accuratezza( v ) = 0 Accuratezza( t) = i N i= 1 accuratezza( v ) N i i i Currency e timeliness La currency è comunemente associata alla data dell ultimo aggiornamento. La currency viene utilizzata nel calcolo della timeliness La timeliness è la dimensione che rivela il grado di aggiornamento dei dati : currency( v ) i Timeliness( vi ) = max 1 ;0 volatility( vi ) 16

17 Altre misurazioni utili per la valutazione della qualità Oltre alla valutazione diretta delle dimensioni di qualità dei dati attraverso: La valutazione dei valori dei dati e dei tipi La loro vicinanza a valori di riferimento La verifica di assenza di duplicati La verifica di correttezza secondo le regole di integrità referenziale è importante anche analizzare i dati all interno del processo, in particolare: Le caratteristiche dei dati: si verifica che i valori dei dati siano conformi a regole di funzionamento dello specifico processo Analisi dei protocolli di sistema (es. numero di record non aggiornati) Il volume dei dati trattati: le analisi mirano a identificare anomalie nell utilizzo dei dati o periodicità Plausibilità (es. distribuzione dei dati) Verifica dei dati con altri sistemi e sorgenti Inoltre bisogna considerare: La valutazione fatta dagli utenti utilizzatori dei dati e dai clienti dell organizzazione misurabile ad esempio attraverso le lamentele o diversi riscontri Valutazioni fatte manualmente attraverso procedure di valutazione standard e tecniche varie Caratteristiche dei dati (Esempio) Credit authorisation Payout before authorisation Authorisation expired Credit Payout 17

18 Analisi del volume dei dati (Numero dei record)? Miglioramento della qualità dei dati 18

19 Strategie per il miglioramento della qualità dei dati Ci sono tre approcci che permettono di migliorare la qualità dei dati del proprio sistema: Ispezione e correzione: i dati sono controllati e confrontati con standard di qualità, gli elementi che non sono ritenuti idonei vengono scartati o corretti fino a quando non passano il controllo Miglioramento e controllo dei processi: l obiettivo è identificare e eliminare le cause di errori Progettazione dei processi: nella fase di progettazione si tiene conto della qualità Ispezione e correzione Laissez-faire: i clienti trovano gli errori e l impresa cerca di correggerli Confronto dei valori con le controparti del mondo reale: tecnica molto costosa e lunga. Non aiuta a prevenire gli errori futuri Database bashing: confronta i record fra due o più database. Ha tre svantaggi principali: L assunzione che i dati che coincidono siano uguali non è sempre corretta I dati usati come termine di confronto potrebbero essere di per sé sbagliati Non previene gli errori futuri Data edits: sono procedure automatiche che verificano che i valori dei dati e/o la loro rappresentazione soddisfino predeterminati vincoli. Questi vincoli sono a volte chiamati business rules 19

20 Miglioramento e controllo dei processi Diverse tecniche di gestione dei processi possono essere applicate alla catena di creazione dell informazione. Metodi che attraverso l uso di edits e data tracking effettuano le misurazioni delle performance dei processi Applicati alla catena dell'informazione gli edit possono visualizzare certi tipi di errore prima ancora che siano riportati nel database Per migliorare il processo, viene gestito un log dei fallimenti, che può essere studiato per determinare i pattern di errore e eliminare le cause. Progettazione dei processi Progettazione dei processi consiste nel fare processi che siano a prova di errore Vengono direttamente inseriti nel processo degli strumenti di misurazione che consentono di controllare e migliorare il processo dall interno del processo stesso. Utilizzo dell IT per minimizzare le attività di interazione diretta tra l utente e il dato per quelle operazioni considerate più a rischio (es. data entry, cambio di formato, ecc.) 20

21 Riepilogo dei principali metodi per il miglioramento di DQ Laissez-faire Metodo Confronto dei valori con le controparti del mondo reale Database bashing, one time Database bashing, ongoing Cleaning, usando data edits, one time Cleaning, usando data edits, ongoing Miglioramento e controllo dei processi Miglioramento Breve Termine Basso Alto Medio Medio Medio Medio Medio Lungo termine Basso Basso Basso Medio Basso Medio Alto Progettazione di processi a Medio Alto prova di errore Costi totali Breve Termine Alto Alto Medio Medio Medio Medio Medio Medio Lungo termine Alto Alto Alto Molto Alto Alto Alto Basso Molto Alto Dati non importanti Per valutare livelli di qualità correnti Quando un secondo DB è disponibile Mai Su dati che non vengono aggiornati spesso Mai Quando è appropriato Su dati che vengono creati o aggiornati frequentemente Ogni volta che un nuovo processo viene progettato o re-ingegnerizzato Metodi per il miglioramento della qualità dei dati alta Frequenza di cambiamento Proactive Data Quality Management bassa Laissez faire Data Cleansing bassa alta Rilevanza dei dati Le misure proattive sono sempre quelle da preferire [de Fries, Seidl und Windheuser 1999] 21

22 Data Quality Management Quality Philosophy Quality Culture Data Quality Policy Data Quality Strategy Strategic Management Data Quality Planning Data Quality Control Definition and Specification of quality objectives Feedback and control Operative Management Information Management [Helfert, Herrmann 2003] Data Quality Management è più che Data Cleaning! 6% 59% 35% Data Cleansing DQM Both (Cleansing & DQM) [Helfert 2002] Definire obiettivi di qualità Analizzare l esistente qualità dei dati Identificare le cause e gli effetti della scarsa qualità dei dati Analizzare il costo e i benefici della qualità dei dati Sviluppare misure per migliorare la qualità dei dati 22

23 External Transaction oriented s(call Center, WWW-Portal, CRM) Operative Data Sources Non relational other DB 2 Net ORACLE Operational Data Store Transformation Component Data Warehouse Data Base Data Warehouse Data Base Data Marts End-User-Tools BERI CH T ' EI NNAH ME N U ND A USG ABEN ' b i s Es s e n 40, 34% Son s t i g e 3 3, 08 % Fr ei ze i t 10, 63% St ud i um 15, 95% Il concetto di DQM proattivo Definizione dei requisiti di qualità dei dati Misurazione del livello corrente di qualià Requisiti Processo organizzativo Valori di qualità Struttura organizzativa (ruoli e responsabilità) Extraction, Transformation, Loading Tecniche e strumenti Cambio di sistema Standard e regole Efficacia Efficienza Identificazione e passi Implementativi per migliorare Continuamente la qualità dei dati Analisi Cause Mancanza di dati Analisi Effetti e implicazioni Diversi approcci per diversi tipi di sistemi informativi Le problematiche relative alla qualità dei dati sono diverse a seconda del sistema informativo in cui si opera: Centralizzati Distribuiti Sistemi informativi direzionali di tipo data warehouse 23

24 SI centralizzati Ipotizziamo che in questi sistemi si operi con un unico database. Per selezionare il miglior metodo di miglioramento dei dati dobbiamo valutare il turnover dei parametri: frequenza delle creazione e aggiornamento dei dati Se il turnover dei parametri è alto metodo di miglioramento e controllo dei processi Se il turnover dei parametri è basso metodo di ispezione e correzione Se il turnover dei parametri è medio o misto Prima si applicano metodi di miglioramento e controllo dei processi e poi metodi di ispezione e correzione In tutti i casi ogni volta che si progetta un nuovo processo, si inseriscono nello stesso procedure per il controllo della qualità dei dati SI distribuiti In questi sistemi i dati da migliorare sono contenuti in più database. Si possono presentare tre casi: I dati contenuti nei database non si sovrappongono per ogni database sono valide le considerazioni fatte per il SI centralizzato I dati sono contenuti sia nel database A che B ma il database B utilizza il database A come sorgente per il database A sono valide le considerazioni fatte per i SI centralizzati e B eredita le correzioni I dati sono contenuti in più database ma manipolati da processi diversi. Più alternative: Tenere i database divisi e usare periodicamente una tecnica di database bashing (sconsigliato) Rivedere la composizione dei processi e controllare se è proprio necessario mantenere la gestione dei database separata Cercare di instaurare fra i due database un rapporto di master/slave 24

25 Sistemi informativi direzionali di tipo data warehouse Metà dei costi associati all implementazione di un data warehouse sono imputabili alla scarsa qualità dei dati I sistemi con data warehouse aumentano la ridondanza dei dati, un generico processo per sviluppare un piano operazionale mirato al miglioramento dei dati si compone dei seguenti passi: Analisi della strategia di business, dei problemi noti, dei tassi di errore e dei costi Selezione dei dati da cui si riescono a definire i requisiti di qualità e determinazione delle basi di dati e processi ad essi associati Selezionare i database principali (master databases) Eliminazione dei processi ridondanti Applicare il metodo di miglioramento opportuno (caso SI centralizzato) In dettaglio: problemi di qualità dei dati nei data warehouse 25

26 BERI CH T ' EINNAH M EN UND AUS G ABEN' b i s S o ns t i g e 3 3, 08 % Fr e i z e i t 1 0, 6 3 % S t ud i um 15, 9 5% Ess e n 40, 34 % BERI CH T ' EI NNAH M EN UND AUSG ABEN' b i s So n s t i ge 3 3, 0 8% F r ei z ei t 10, 63 % S t ud i um 1 5, 9 5 % Es s e n 4 0, 3 4% La scarsa qualità dei dati è percepita attraverso inconsistenze... Qual è il vero valore dell informazione per i clienti? Osservazione diretta Rappresentazione del Sistema Informativo Mondo reale Operative Data Transformation Data Warehouse Sources Component Data Base External Net ORACLE Data Warehouse DB 2 Data Base other Non relational Extraction, Transformation, Loading Data Marts End-User-Tools Interpretazione data user s Percezione data user s dei real real world dati da world parte degli perception perception utenti Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Inconsistenze percepite Scarsa qualità dei dati percepita [ see also Wand, Wang 1996] Problemi chiave di qualità dei dati Estrazione e interpretazione dati operazionali Integrazione di diversi sistemi operazionali Applicazione / (Interpretazione dati lato utente) Trasferimento dati Acquisizione dati Operative Data Sources Transformation Component Data Warehouse Data Base Data Marts End-User-Tools External Non relational Net ORACLE DB 2 other Extraction, Transformation, Loading Data Warehouse Data Base Transaction oriented s(call Center, WWW-Portal, CRM) Operational Data Store 26

27 Interpretazione dati (Esempio)... Name Date of Birth Product Price Day Keane 09/03/70 AB 14.3 SFR O Conner AC 27.2 EUR O Conner 14/07/65 BB Schmidt 1/1/11 AC 26.2 EUR Keane 09/03/70 BA??? Duplicati/ridondanze Uso di valori di default... C# Name Date of Birth Keane 09/03/70... O Conne /07/65... r... 3 Schmidt Null Codice non esplivativo C# P-Cat. 1 A 2 A 2 B Problemi di formato Incompletezza Referenza temporale impliita P# Cur. Price Date... 2 SFR /11/ EUR /11/ EUR /11/ A 1 B 3 SFR /11/ Null Null 14/11/00... Approcci per l estrazione l e trasferimento dei dati Frequentemente risolti in cooperazione con i dipartimenti operativi Spesso gli errori vengono automaticamente risolti nel processo di trasferimento dati Feedback dei problemi di qualità dei dati Data Warehouse Semantic Syntax Sviluppo di una logica di trasformazione per il trasferimento dati (mapping) Fornitura dei dati secondo gli standard concordati Conoscenza implicita Op. System Semantic Syntax Scarsa qualità dei dati (ma tollerata a livello operativo) Sviluppo di definizioni esatte (descrizione dati, origine dei dati, formato dei dati) 27

28 Problemi di integrazione (Esempio) Tabelle con dati ridondanti (indirizzo) in diversi sistemi operazionali... Name Street ZIP City Phone Fax O Conner Ballymon Rd. 5 9 Dublin Ahern Griffen Av. 24 Galway Correct address data Office information... Name Street ZIP City Phone Fax O Conner Finglass Rd Dublin Ahern Galway Private information I dati sono raccolti per diversi scopi La standardizzazione può disturbare i processi organizzativi a livello operativo I problemi di integrazione sono... Molto complessi e costosi in termine di tempo, dal momento che diverse unità organizzative sono coinvolte (lunghe procedure decisionali, analisi complessa dei problemi, fattori politici) Difficili da analizzare e quindi implicano un alto rischio di progetto Sono causati maggiormente da problemi organizzativi piuttosto che tecnici, e.g. Mancanza di attenzione per la qualità dei dati e dell informazione Mancanza di standard / procedure per lo sviluppo di applicazioni Sviluppo indipendente dei concetti organizzativi e di sistema Addestramento del personale insufficiente Sicurezza delle informazioni 28

29 Processo di trasferimento e consistenza temporale Real world Data- Warehouse- Database Operational Systems [Helfert 2002] Un caso di studio: qualità dei dati in un istituto finanziario 29

30 Il caso di studio Obiettivi del progetto: Analizzare la situazione corrente di qualità dei dati Analizzare i requisiti di qualità dei dati degli utenti finali Sviluppare un sistema concettuale di qualità dei dati per la banca Definizione di una serie di regole per gestire la qualità dei dati per specifiche aree applicative Incentivare del trattamento della qualità dei dati e guadagnare l attenzione da parte dell intera direzione aziendale Sviluppo di una strategia orientata alla qualità dei dati [Helfert 2002] 30

31 l B ERI CH T ' EI NNAH M E N UND AUS G ABE N' b i s Son s t i g e 33, 08 % Fr ei z ei t 1 0, 63% St u di um 1 5, 9 5% E s s en 4 0, 34% Esempi di regole operative per il controllo della qualità >conta tutti i conti correnti che sono stati chiusi ma a cui Non è associata nessuna data di chiusura select count(account_id) from pkw_accounts where substr(appl_flags_1,8,1) = '1' and account_closing_date is null >GESTIONE DI ECCEZIONE: tra marzo 2001 e Dicembre 2001 la tabella cr_col_cat >è aumentata da a righe per mese. >EXCEPTION: >In gennaio 2002 ci si aspetta un aumento solo di un terzo delle righe del mese precedente select count (*) from cr_col_cat a where a.date_per = to_date(' ','dd.mm.yyyy') Data Cleansing (passi principali) Documentazione (documentare i risultati del passo del processo di dati cleansing in metadati) Householding (combinare record individuali che sono attribuiti allo stesso indirizzo) Trasformazione dei dati (es.1 per uomini, e 2 per donne diventano M e F) Record matching (determinare se due record si riferiscono allo stesso soggetto) Correzione e verifica dei dati (confronta i dati con liste certificate, es. Codici postali, liste di prodotti) Standardizzazione (adottare formati standard per alcuni valori dei dati) Parsing (scomporre il record in unità atomiche) Datenquellen Data Warehouse Datenbank Data Marts Transformationskomponente End-User- Werkzeuge [Neely 1998] External Net ORACL E DB 2 other Non relationa Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Extraction, Transformation, Loading Data Warehouse Data Base 31

32 Esempi di specifiche per la qualità (regole) Criteria Approach Example Domain and attribute Value corresponds specified Data type / format Value is within range of values DateOfBirth IS Date <= DateOfBirth <= Today Obligatory fields (missing values) DateOfBirth NOT NULL Plausibility Record and relation Referential integrity Relations between records Key values are unique Foreign key relations (Product#= 4x AND CustomerCode = 1x) credit_balance >= Account# NOT NULL AND UNIQUE Account.Customer# IN Customer.Customer# Sum of credit balances from system A is equivalent to former balance + account movements Other integrity constrains Relations between different attributes Average balance is related to Number of Customers (e.g. Average Credit_Balance is within a plausibility interval dependent on Number of Customers) Data volumes (Number of records) Number of account movements are within a plausibility interval (e.g <= (COUNT (*) FROM Account WHERE Transaktion_Date = Today) <= ) Test for execution of scheduled Tecnologie Timeliness per i Sistemi Informativi, Transfer Processes Transfer process T is at scheduled time t completed (e.g. scheduled_time = start_time AND Status = completed ) Esempio di analisi dei dati Città City Data di of nascita Birth St. Gallen

33 Modifiche nei processi: ciclo di pianificazione e controllo della qualità dei dati [Helfert, Herrmann 2003] Modifiche nei processi: Pianificazione della qualità dei dati [Helfert, Herrmann 2003] 33

34 Modifiche nei processi: controllo della qualità dei dati [Helfert, Herrmann 2003] database Valori di tolleranza: > 30 Azione da effettuare in caso di violazione delle regole? Risultati attesi Casi di test e regole SQL-Script Notifica: History log file [Winter, Helfert, Herrmann 2002] 34

35 Utilizzo effettivo del sistema implementato: indagine dei clienti dell istituto finanziario Indagine dei clienti Gestione del rischio Reputazione Legale Operazionale Si investiga per la riduzione del rischio Frequenza e Qualità dell indagine Sui clienti Lotta contro il terrorismo Implementare misure per contrastare il finanziamento del terrorismo Preliminare identificazione dei terroristi fra I clienti Mezzi per contrastare il riciclo di denaro Monitoraggio delle transazioni Indagini Si indagano clienti che effettuano transazioni sospette 35

36 Problema: : un nome non è un identificatore unico Esempio: Hans Müller 1190 matches Hans Müller, matches Hans Müller, Zurigo 58 matches Hans Müller, Zurigo, match Problema: affrontare diversi problemi di qualità dei dati Esterne Esempio: In molti nomi stranieri si ha difficoltà nel capire quale sia il cognome Definizione della data di nascita Interne Esempio: Crescita incrementale del sistema Date di nascita inserite in modo automatico (es ) Typos (es. Smith -> Simth) Inserimento di campi che consentono l inserimento di testo libero nel sistema 36

37 Problema: : Un nome può essere scritto in diversi modi Individuo #1 - Adnan El Shukrijumah Name Component Variant Form Relative Frequency Interpretazione dei nomi dipende dal contesto sociale e culturale ADNAN ADNAN COMMON ADNANE COMMON ALADNAN LESS COMMON EL SHUKRI SHUKRI COMMON SHOUKRY COMMON SHOKRY COMMON SHOKRI LESS COMMON CHOUKRI LESS COMMON SHUKRY LESS COMMON SHOUKRI LESS COMMON CHUKRI LESS COMMON ALSHUKRI LESS COMMON CHOUKRY LESS COMMON CHOQRI LESS COMMON JUMAH JUMA COMMON GOMAA COMMON JUMAH COMMON JOMAA COMMON ALJUMAH COMMON JUMAA COMMON ALJUMA COMMON ALJUMAAH COMMON JOUMAA LESS COMMON JOMAH LESS COMMON GOMA LESS COMMON ALJOMAH LESS COMMON GOMMA LESS COMMON JUMAAH LESS COMMON ALJOMAAH LESS COMMON Example courtesy of Tobi Moriarty / / Problema: controllo dei dati inseriti World-Check Updates per Day (October January 2004) Updates 1500 Average: 240 Updates / Inserts per Day Dates I controlli iniziali non bastano, i dati possono essere soggetti a modifiche, ci vuole monitoraggio!

38 Come è stato modificato il processo. Investigations & Inquiries Inquirer E stato adottato un processo breve e efficiente Una sola interfaccia al sistema Utilizzo del data warehouse descritto precedentemente Evoluzione del processo di indagine < telefono - FAX telefono - FAX 40+ standard di interrogazione Consultazione parallela dello stesso sistema Coinvolgimento di terze parti solo se necessario ma si possono consultare da un unica postazione più di 16 basi di dati differenti Tutti i dati necessari accessibili Da un unico sistema 38

39 Il nuovo processo: l applicazione trova i nomi scritti in modo errato Visualizzazione dei dettagli dei clienti 39

40 L applicazione per la ricerca di un azienda Visualizzazione dei dettagli delle aziende 40

41 L applicazione che consente di trovare i possibili clienti sospetti oltre all applicazione applicazione Migliorare l interfaccia di inserimento dati nello strumento attraverso cui si inseriscono i dati della clientela (evitare campi memo, eseguire controlli preliminari ecc.) Ridurre il numero dei campi per la ricerca dei nomi (es. meta-database) Usabilità: pensare prima a falsi positivi e poi a confronti reali Se utile, aggiungere informazioni provenienti da terze parti nel sistema, per supportare il processo decisionale Bilanciare l utilizzo dei tre ingredienti: dati, utente e algoritmi 41

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Informatica B. Contenuti. Introduzione alle Basi di Dati e ai DBMS. Introduzione a dati e basi dati DBMS Modello dei dati

Informatica B. Contenuti. Introduzione alle Basi di Dati e ai DBMS. Introduzione a dati e basi dati DBMS Modello dei dati Informatica B Introduzione alle Basi di Dati e ai DBMS Contenuti Introduzione a dati e basi dati DBMS Modello dei dati Informazioni e dati Dato: elemento semanticamente significativo (data, codice, ecc.),

Dettagli

Introduzione alle Basi di Dati

Introduzione alle Basi di Dati 1 Introduzione alle Basi di Dati Massimo Paolucci (paolucci@dist.unige.it) DIST Università di Genova Sistema Azienda 2 Sistema organizzativo è costituito da una serie di risorse e di regole necessarie

Dettagli

Sistemi Informativi Aziendali II

Sistemi Informativi Aziendali II Modulo 2 Sistemi Informativi Aziendali II 1 Corso Sistemi Informativi Aziendali II - Modulo 2 Modulo 2 La gestione delle informazioni strutturate nell impresa: La progettazione di un Data Base; Le informazioni

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza:

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza: DOMANDE 1) Definire i concetti di schema e istanza di una base di dati, fornendo anche un esempio. Si definisce schema di una base di dati, quella parte della base di dati stessa che resta sostanzialmente

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Basi di Dati Complementi Esercitazione su Data Warehouse

Basi di Dati Complementi Esercitazione su Data Warehouse Sommario Basi di Dati Complementi Esercitazione su Data Warehouse 1. Riassunto concetti principali dalle slide della lezione di teoria 2.Studio di caso : progettazione di un Data Warehouse di una catena

Dettagli

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione SQL DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE SQL è più di un semplice linguaggio di interrogazione! Linguaggio di definizione dati (Data-definition language, DDL):! Crea/distrugge/modifica relazioni

Dettagli

Basi di dati Il linguaggio SQL

Basi di dati Il linguaggio SQL Basi di dati Il linguaggio SQL teoria e pratica con Microsoft Access Riepilogando Nelle basi di dati esiste 1. una parte invariante nel tempo, lo schema, costituita dalle caratteristiche dei dati (nomi

Dettagli

Basi di dati Il linguaggio SQL

Basi di dati Il linguaggio SQL Riepilogando Basi di dati Il linguaggio SQL Nelle basi di dati esiste 1. una parte invariante nel tempo, lo schema, costituita dalle caratteristiche dei dati (nomi degli attributi, domini, 2. una parte

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

Sistema di Gestione di Basi di Dati DataBase Management System DBMS

Sistema di Gestione di Basi di Dati DataBase Management System DBMS Base di dati (accezione generica) collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni di una organizzazione (accezione specifica) collezione di dati

Dettagli

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone SQL: il DDL Parti del linguaggio SQL Definizione di basi di dati (Data Definition Language DDL) Linguaggio per modificare

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli

SAP Assure SAP Integrity Assure Tool

SAP Assure SAP Integrity Assure Tool Enterprise Fraud Application Risk Management Solution SAP Assure SAP Integrity Assure Tool Agenda Introduzione a SAP Assure Tool Suite Focus su Assure Integrity Presentazione di un caso pratico 1 I prodotti

Dettagli

La qualità delle informazioni:

La qualità delle informazioni: misurazione e controllo in Enterprise Data Warehouse FABIO BALDUZZI ICTEAM Torino / Direttore Tecnico 0 Dati strutturati INFORMAZIONI DMS Dati non strutturati DATI Contesto Esperienza Enterprise Knowledge

Dettagli

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati INTRODUZIONE Accesso ai dati tramite DBMS Livelli di astrazione Modello dei dati: schema / istanza / metadati Alcuni modelli dei dati Linguaggi per DBMS Architettura di base di un DBMS cesarini - BDSI

Dettagli

Corso di Informatica Generale 1 IN1. Linguaggio SQL

Corso di Informatica Generale 1 IN1. Linguaggio SQL Università Roma Tre Facoltà di Scienze M.F.N. di Laurea in Matematica di Informatica Generale 1 Linguaggio SQL Marco (liverani@mat.uniroma3.it) Sommario Prima parte: le basi dati relazionali Basi di dati:

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Che cos è un DBMS? Capitolo 1. Perché usare un DBMS? DBMS. Descrizioni dei dati nei DBMS. Modelli di dati

Che cos è un DBMS? Capitolo 1. Perché usare un DBMS? DBMS. Descrizioni dei dati nei DBMS. Modelli di dati Che cos è un DBMS? Capitolo 1 Introduzione ai sistemi di basi di dati Una collezione integrata molto grande di dati Modella organizzazioni del mondo reale Entità (ad esempio studenti, corsi) Relazioni

Dettagli

INTRODUZIONE. Motivazioni e Obbiettivi

INTRODUZIONE. Motivazioni e Obbiettivi INTRODUZIONE Motivazioni dei sistemi distribuiti Caratteristiche generali Alcuni richiami sui database centralizzati Standardizzazione dei dati (ANSI/SPARC) Funzioni dei DBMS relazionali Problematiche

Dettagli

Corso di Laboratorio di Basi di Dati

Corso di Laboratorio di Basi di Dati Corso di Laboratorio di Basi di Dati F1I072 - INF/01 a.a 2009/2010 Pierluigi Pierini Technolabs S.p.a. Pierluigi.Pierini@technolabs.it Università degli Studi di L Aquila Dipartimento di Informatica Technolabs

Dettagli

Ingegneria dei Requisiti

Ingegneria dei Requisiti Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Ingegneria dei Requisiti E. TINELLI Contenuti I requisiti del software Documento dei requisiti I processi

Dettagli

Introduzione al Data Warehousing

Introduzione al Data Warehousing Il problema - dati IPERVENDO Via Vai 111 P.I.11223344 Vendite II Trim. (Milioni!) Introduzione al Data Warehousing tecnologia abilitante per il data mining ACQUA MIN 0.40 LATTE INTERO 1.23 SPAZZ.DENTI

Dettagli

LABORATORIO. 2 Lezioni su Basi di Dati Contatti:

LABORATORIO. 2 Lezioni su Basi di Dati Contatti: PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE Gennaro Cordasco e Rosario De Chiara {cordasco,dechiara}@dia.unisa.it Dipartimento di Informatica ed Applicazioni R.M. Capocelli Laboratorio

Dettagli

Sistemi Informativi e Basi di Dati

Sistemi Informativi e Basi di Dati Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli

Dettagli

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Roccatello Ing. Eduard L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Agenda Presentazione docente Definizione calendario Questionario pre corso

Dettagli

DB2 Universal Database (UDB) DB2 Universal Database (UDB)

DB2 Universal Database (UDB) DB2 Universal Database (UDB) DB2 Universal Database (UDB) Sistemi Informativi L-A Home Page del corso: http://www-db.deis.unibo.it/courses/sil-a/ Versione elettronica: DB2Presentazione2009.pdf Sistemi Informativi L-A DB2 Universal

Dettagli

Dal Data Cleaning alla certificazione di qualità per i dati. PAOLO MISSIER University of Manchester, UK - ricercatore

Dal Data Cleaning alla certificazione di qualità per i dati. PAOLO MISSIER University of Manchester, UK - ricercatore Dal Data Cleaning alla certificazione di qualità per i dati PAOLO MISSIER University of Manchester, UK - ricercatore Una definizione classica di qualità dei dati Qualità di un dato: insieme di metriche

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Facoltà di Pianificazione del Territorio A.A. 2011/2012. Informatica

Facoltà di Pianificazione del Territorio A.A. 2011/2012. Informatica Facoltà di Pianificazione del Territorio A.A. 2011/2012 Informatica Le basi di dati 2 Dati e Informazioni Un dato in sé non costituisce un informazione in quanto consiste semplicemente di un insieme di

Dettagli

MAX, SUM, AVG, COUNT)

MAX, SUM, AVG, COUNT) INTRODUZIONE A SQL Definizione di tabelle e domini Alcuni vincoli di integrità Struttura base SELECT FROM WHERE Funzioni di aggregazione (MIN, MAX, SUM, AVG, COUNT) Query da più tabelle (FROM R1, Rk) Join

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei Introduzione Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei. ESEMPI DI INSIEMI DI DATI DA ORGANIZZARE ED USARE IN MANIERA EFFICIENTE Introduzione Più utenti con

Dettagli

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino Integration Services Project SQL Server 2005 Integration Services Permette di gestire tutti i processi di ETL Basato sui progetti di Business Intelligence di tipo Integration services Project SQL Server

Dettagli

Business Intelligence: Data warehouse & Data mining

Business Intelligence: Data warehouse & Data mining Business Intelligence Business Intelligence: Data warehouse & Data mining Termine generico per indicare: un insieme di processi per raccogliere ed analizzare informazioni strategiche la tecnologia utilizzata

Dettagli

LA TECHNOLOGY TRANSFER PRESENTA MIKE ROMA 12-14 DICEMBRE 2012 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

LA TECHNOLOGY TRANSFER PRESENTA MIKE ROMA 12-14 DICEMBRE 2012 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 LA TECHNOLOGY TRANSFER PRESENTA MIKE FERGUSON ENTERPRISE DATA GOVERNANCE E MASTER DATA MANAGEMENT ROMA 12-14 DICEMBRE 2012 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 info@technologytransfer.it www.technologytransfer.it

Dettagli

Linguaggio SQL: fondamenti D B M G. Gestione delle tabelle

Linguaggio SQL: fondamenti D B M G. Gestione delle tabelle Linguaggio SQL: fondamenti Creazione di una tabella Modifica della struttura di una tabella Cancellazione di una tabella Dizionario dei dati Integrità dei dati 2 2007 Politecnico di Torino 1 Creazione

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Le Basi di dati: generalità. Unità di Apprendimento A1 1

Le Basi di dati: generalità. Unità di Apprendimento A1 1 Le Basi di dati: generalità Unità di Apprendimento A1 1 1 Cosa è una base di dati In ogni modello di organizzazione della vita dell uomo vengono trattate informazioni Una volta individuate e raccolte devono

Dettagli

L architettura di un DBMS

L architettura di un DBMS L architettura di un DBMS sources: Lucidi del corso di Lucidi del corso di Laboratorio di Basi di dati e sistemi informativi, Montesi, Magnani, Corso di laurea in Informatica per il management, Scienze

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File system verso DBSM Vantaggi di un DBMS Modelli dei dati Utenti

Dettagli

Introduzione ai sistemi di basi di dati

Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Alessandro.bardine@gmail.com alessandro.bardine@iet.unipi.it Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File

Dettagli

II Modulo Organizzazione dei Sistemi Informativi

II Modulo Organizzazione dei Sistemi Informativi II Modulo Organizzazione dei Sistemi Informativi DA CHE COSA E COMPOSTO COME SI ACCEDE CHI LO USA A CHE COSA SERVE Risorse hardware e software: - Server - LAN (router, HUB Firewall,..) - Storage - pacchetti

Dettagli

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1 Database Organizzazione di archivi mediante basi di dati ing. Alfredo Cozzi 1 Il database è una collezione di dati logicamente correlati e condivisi, che ha lo scopo di soddisfare i fabbisogni informativi

Dettagli

PROGRAMMA DI CLASSE 5AI

PROGRAMMA DI CLASSE 5AI Istituto di Istruzione Superiore Euganeo Istituto tecnico del settore tecnologico Istituto professionale del settore servizi socio-sanitari Istituto professionale del settore industria e artigianato PROGRAMMA

Dettagli

Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica.

Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica. Progettazione logica Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica. La progettazione logica è basata su un particolare modello logico dei

Dettagli

Corso di Informatica (Basi di Dati)

Corso di Informatica (Basi di Dati) Corso di Informatica (Basi di Dati) Lezione 1 (12 dicembre 2008) Introduzione alle Basi di Dati Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati 1, Prof. Carlo Batini,

Dettagli

Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R:

Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R: Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R: Si consiglia di creare il data base, inserire i dati nelle tabelle, provare

Dettagli

SMS Strategic Marketing Service

SMS Strategic Marketing Service SMS Strategic Marketing Service Una piattaforma innovativa al servizio delle Banche e delle Assicurazioni Spin-off del Politecnico di Bari Il team Conquist, Ingenium ed il Politecnico di Bari (DIMEG) sono

Dettagli

Basi di Dati. Programmazione e gestione di sistemi telematici

Basi di Dati. Programmazione e gestione di sistemi telematici Basi di Dati. Programmazione e gestione di sistemi telematici Coordinatore: Prof. Paolo Nesi Docenti: Prof. Paolo Nesi Dr.sa Michela Paolucci Dr. Emanuele Bellini Cosa e l informatica? Scienza del trattamento

Dettagli

SQL SQL. Definizione dei dati. Domini. Esistono 6 domini elementari:

SQL SQL. Definizione dei dati. Domini. Esistono 6 domini elementari: SQL SQL (pronunciato anche come l inglese sequel: acronimo di Structured Query Language (linguaggio di interrogazione strutturato Linguaggio completo che presenta anche proprietà di: DDL (Data Definition

Dettagli

Grandi dimensioni e dimensioni variabili

Grandi dimensioni e dimensioni variabili Grandi dimensioni e dimensioni variabili aprile 2012 1 Questo capitolo studia alcuni ulteriori aspetti importanti e caratteristici della gestione delle dimensioni in particolare, delle grandi dimensioni

Dettagli

SQL: Structured Query Language. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

SQL: Structured Query Language. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma SQL: Structured Query Language 1 SQL:Componenti Principali Data Manipulation Language (DML): interrogazioni, inserimenti, cancellazioni, modifiche Data Definition Language (DDL): creazione, cancellazione

Dettagli

SCHEDE DI INFORMATICA GLI ARCHIVI E LE BASI DI DATI

SCHEDE DI INFORMATICA GLI ARCHIVI E LE BASI DI DATI SCHEDE DI INFORMATICA GLI ARCHIVI E LE BASI DI DATI Il Database è una collezione di archivi di dati ben organizzati e ben strutturati, in modo che possano costituire una base di lavoro per utenti diversi

Dettagli

Introduzione a MySQL

Introduzione a MySQL Introduzione a MySQL Cinzia Cappiello Alessandro Raffio Politecnico di Milano Prima di iniziare qualche dettaglio su MySQL MySQL è un sistema di gestione di basi di dati relazionali (RDBMS) composto da

Dettagli

----------------------------------------------------------------------------

---------------------------------------------------------------------------- APPUNTI DI SQL Gli appunti qui forniti vogliono essere un riferimento scritto di alcuni degli argomenti trattati a lezione per gli studenti a cui vengono messi a disposizione. Non viene fornita alcuna

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager è una soluzione completa

Dettagli

Basi di Dati prof. Letizia Tanca

Basi di Dati prof. Letizia Tanca Basi di Dati prof. Letizia Tanca (lucidi tratti dal libro Atzeni-Ceri-Paraboschi-Torlone) AA 2003-04 Linguaggi di interrogazione commerciali per il Modello Relazionale dei Dati: SQL - il DDL Domini I domini

Dettagli

Elena Baralis 2013 Politecnico di Torino 1

Elena Baralis 2013 Politecnico di Torino 1 Modello relazionale Docente M2170 Fondamenti di informatica Verdi M4880 Sistemi di elaborazione Bianchi F0410 Basi di dati Neri Docenti Nome Dipartimento Telefono Verdi Informatica 123456 Bianchi Elettronica

Dettagli

Economia e gestione delle imprese

Economia e gestione delle imprese Anno accademico 2008-2009 Economia e gestione delle imprese Prof. Arturo Capasso 1 2 1 Ciclo dell informazione PROGRAMMAZIONE Decisioni ESECUZIONE Informazioni CONTROLLO Risultati 3 Organizzazione e Sistema

Dettagli

Sistemi di Gestione dei Dati e dei Processi Aziendali. Sistemi ERP e controlli automatici

Sistemi di Gestione dei Dati e dei Processi Aziendali. Sistemi ERP e controlli automatici Sistemi di Gestione dei Dati e dei Processi Aziendali Sistemi ERP e controlli automatici Obiettivi della sessione Al termine di questa sessione sarete in grado di: Descrivere gli obiettivi di un sistema

Dettagli

SQL Server BI Development Studio

SQL Server BI Development Studio Il Data warehouse SQL Server Business Intelligence Development Studio Analysis Service Sorgenti dati operazionali DB relazionali Fogli excel Data warehouse Staging Area e dati riconciliati Cubi Report

Dettagli

Economia e gestione delle imprese

Economia e gestione delle imprese Anno accademico 2007-2008 Economia e gestione delle imprese Prof. Arturo Capasso 1 2 Ciclo dell informazione PROGRAMMAZIONE Decisioni ESECUZIONE Informazioni CONTROLLO Risultati 3 1 Organizzazione e Sistema

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli

DATABASE. Progettare una base di dati. Database fisico e database logico

DATABASE. Progettare una base di dati. Database fisico e database logico DATABASE Progettare una base di dati Database fisico e database logico Un DB è una collezione di tabelle, le cui proprietà sono specificate dai metadati Attraverso le operazioni sulle tabelle è possibile

Dettagli

Introduzione ai Database e a Microsoft Access

Introduzione ai Database e a Microsoft Access Introduzione ai Database e a Microsoft Access 1 Il Sistema Informativo aziendale Un Sistema Informativo aziendale è costituito: dall'insieme delle informazioni utilizzate, prodotte e trasformate da un'azienda

Dettagli

Basi di Dati: Corso di laboratorio

Basi di Dati: Corso di laboratorio Basi di Dati: Corso di laboratorio Lezione 2 Raffaella Gentilini 1 / 45 Sommario 1 Il DDL di SQL: Cancellazione ed Aggiornamento di una BD Cancellazione di Schemi, Tabelle, e Domini Aggiornamento di Tabelle

Dettagli

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL Basi di dati Il Linguaggio SQL Data Definition Language (DDL) Data Definition Language: insieme di istruzioni utilizzate per modificare la struttura della base di dati Ne fanno parte le istruzioni di inserimento,

Dettagli

SNAP Proposte e coupon personalizzati in tempo reale sui canali digitali

SNAP Proposte e coupon personalizzati in tempo reale sui canali digitali SNAP Proposte e coupon personalizzati in tempo reale sui canali digitali Canali e Core Banking Finanza Crediti Sistemi Direzionali Sistemi di pagamento e Monetica SNAP Proposte e coupon personalizzati

Dettagli

Sistema di spedizione per azienda logistica LBDS

Sistema di spedizione per azienda logistica LBDS CONFIGURATION MANAGEMENT PLAN Sistema di spedizione per azienda logistica LBDS Gruppo Laboratorio di Ingegneria del Software 2 Anno Accademico2009/2010 Gruppo Kairos: Maiero Matteo, Bertoni Alan, Zolli

Dettagli

Lezione 8. Metadati, Viste e Trigger

Lezione 8. Metadati, Viste e Trigger Lezione 8 Metadati, Viste e Trigger Pag.1 Metadati e catalogo di sistema I metadati sono dati a proposito dei dati (quali tabelle esistono?, quali campi contengono?, quante tuple contengono?, ci sono vincoli

Dettagli

Database/Banche Dati/Sistemi Informativi

Database/Banche Dati/Sistemi Informativi Database/Banche Dati/Sistemi Informativi Insieme di programmi in grado di: acquisire, elaborare, archiviare informazioni in genere ad uso di un organizzazione (azienda o istituzione). Dato Informazione

Dettagli

Modulo Rappresentazione dell Informazione Prof. Carlo Batini

Modulo Rappresentazione dell Informazione Prof. Carlo Batini Università degli Studi di Milano-Bicocca Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea Magistrale in Informatica Rappresentazione dell Informazione e della Conoscenza Modulo Rappresentazione

Dettagli

Modelli relazionali. Esistono diversi modi di modellare un database. Il modello piu' usato al momento e' il modello relazionale

Modelli relazionali. Esistono diversi modi di modellare un database. Il modello piu' usato al momento e' il modello relazionale Cenni sui DATABASE Cos'e' un database Un database puo' essere definito come una collezione strutturata di record (dati) I dati sono memorizzati su un computer in modo opportuno e possono essere recuperati

Dettagli

Expanding the Horizons of Payment System Development. Università Luiss «Guido Carli» Sala delle Colonne Viale Pola, 12 Roma

Expanding the Horizons of Payment System Development. Università Luiss «Guido Carli» Sala delle Colonne Viale Pola, 12 Roma Expanding the Horizons of Payment System Development Università Luiss «Guido Carli» Sala delle Colonne Viale Pola, 12 Roma Enterprise Fraud Management Systems Panoramica della Soluzione Focus su Wire Fraud

Dettagli

Il DBMS Oracle. Express Edition. Donatella Gubiani e Angelo Montanari

Il DBMS Oracle. Express Edition. Donatella Gubiani e Angelo Montanari Gubiani & Montanari Il DBMS Oracle 1 Il DBMS Oracle Express Edition Donatella Gubiani e Angelo Montanari Il DBMS Oracle Il DBMS Oracle Oracle 10g Express Edition Il DBMS Oracle (nelle sue versioni più

Dettagli

Vincoli di Integrità

Vincoli di Integrità Vincoli di Integrità Antonella Poggi Dipartimento di informatica e Sistemistica Sapienza Università di Roma Progetto di Applicazioni Software Anno accademico 2010-2011 Questi lucidi sono stati prodotti

Dettagli

Archivi e Basi di Dati

Archivi e Basi di Dati Archivi e Basi di Dati A B C File Programma 1 Programma 2 A B C File modificati Programma 1 DBMS DB Programma 2 Informatica Generale (CdL in E&C), A.A. 2000-2001 55 Problemi nella gestione di archivi separati

Dettagli

SQL (STRUCTURED QUERY LANGUAGE)

SQL (STRUCTURED QUERY LANGUAGE) SQL (STRUCTURED QUERY LANGUAGE) Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan SQL DDL Data Definition Language DML Data Manipulation Language DCL Data Control Language DDL Obiettivo: Definire la struttura

Dettagli

Basi di dati. Informatica. Prof. Pierpaolo Vittorini pierpaolo.vittorini@cc.univaq.it

Basi di dati. Informatica. Prof. Pierpaolo Vittorini pierpaolo.vittorini@cc.univaq.it pierpaolo.vittorini@cc.univaq.it Università degli Studi dell Aquila Facoltà di Medicina e Chirurgia 18 marzo 2010 Un esempio di (semplice) database Quando si pensa ad un database, generalmente si immagina

Dettagli

Transazioni. Architettura di un DBMS. Utente/Applicazione. transazioni. Transaction Manager. metadati, statistiche.

Transazioni. Architettura di un DBMS. Utente/Applicazione. transazioni. Transaction Manager. metadati, statistiche. Query/update Query plan Execution Engine richieste di indici, record e file Index/file/record Manager comandi su pagine Query Compiler Buffer Manager Lettura/scrittura pagine Architettura di un DBMS Utente/Applicazione

Dettagli

Structured Query Language parte 1

Structured Query Language parte 1 Consorzio per la formazione e la ricerca in Ingegneria dell'informazione Structured Query Language parte 1 Come interrogare una base di dati relazionale ed avere la risposta esatta Docente: Gennaro Pepe

Dettagli

SQL IL LINGUAGGIO DI INTERROGAZIONE

SQL IL LINGUAGGIO DI INTERROGAZIONE SQL IL LINGUAGGIO DI INTERROGAZIONE SQL! Originato da SEQUEL-XRM e System-R (1974-1977) dell IBM! Significato originario Structured Query Language! Standard de facto! Attuale standard ANSI/ISO è SQL:1999

Dettagli

OR true null false true true true true null true null null false true null false NOT

OR true null false true true true true null true null null false true null false NOT Il linguaggio SQL è un linguaggio standard per la definizione, manipolazione e interrogazione delle basi di dati relazionali ed ha le seguenti caratteristiche: è dichiarativo; opera su multiset di tuple,

Dettagli

Università degli Studi di Napoli Federico II Facoltà di Medicina e Chirurgia Corso di Laurea in Infermieristica

Università degli Studi di Napoli Federico II Facoltà di Medicina e Chirurgia Corso di Laurea in Infermieristica Università degli Studi di Napoli Federico II Facoltà di Medicina e Chirurgia Corso di Laurea in Infermieristica Corso di Sistemi di Elaborazione delle Informazioni A.A. 2011/2012 Prof. Ing. Ivan Giammona

Dettagli

Modulo Campaign Activator

Modulo Campaign Activator Modulo Campaign Activator 1 Che cosa è Market Activator Market Activator è una suite composta da quattro diversi moduli che coprono esigenze diverse, ma tipicamente complementari per i settori marketing/commerciale

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli