Data Quality. Cinzia Cappiello 14/11/2005 Politecnico di Milano. Tecnologie per i Sistemi Informativi,

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data Quality. Cinzia Cappiello 14/11/2005 Politecnico di Milano. Tecnologie per i Sistemi Informativi, 2005-2006"

Transcript

1 Data Quality Cinzia Cappiello 14/11/2005 Politecnico di Milano Perché la qualità dei dati è importante? La scarsa qualità dei dati si diffonde La scarsa qualità dei dati è costosa La qualità dei dati può essere migliorata La qualità dei dati può costituire un forte vantaggio competitivo 1

2 Motivazioni per una scarsa qualità dei dati Cambiamenti storici: l importanza di un dato può cambiare nel tempo Esempio: la data di nascita dei clienti per una compagnia assicurativa. Utilizzo dei dati: l importanza dei dati dipende dal processo in cui vengono utilizzati Esempio: processo operativo o decisionale Fusioni societarie: l integrazione dei dati può provocare difficoltà Leggi sulla privacy: molte nazioni proteggono la privacy degli individui. Arricchimento dei dati: è pericoloso arricchire i dati interni con sorgenti esterne. Un caso interessante di scarsa qualità Dicembre 2003 ponte tra Germania e Svizzera Gli svizzeri e tedeschi iniziarono a costruire un ponte di collegamento tra le due nazioni Nel punto di incontro trovarono che il ponte presentava un dislivello di 27 cm. Come mai? Il sistema tedesco prende come riferimento per misurare l altitudine il mar Baltico mentre il sistema svizzero il mar Mediterraneo. Inconsistenza tra formati Data quality problem!!! 2

3 Effetti della scarsa qualità dei dati (1) Diminuisce la soddisfazione della clientela Implica il sostenimento di costi alti e superflui Recenti studi hanno riportato che: Il costo diretto che un organizzazione deve sostenere per correggere errori nei dati ricevuti da una seconda organizzazione è il 6% del suo budget totale Il costo stimato che una compagnia deve sostenere per la scarsa qualità dei dati relativi alla clientela è circa il 6-14% dei ricavi Influenza i processi decisionali Implementare sistemi di data warehouse o data mining su dati di scarsa qualità è molto rischioso Effetti della scarsa qualità dei dati (2) Impedisce il re-engineering: in molti progetti di re-engineering la cosa fondamentale è individuare i dati giusti da collocare nel posto giusto al momento giusto per soddisfare le esigenze di un cliente. Ma se i dati individuati sono sbagliati, essi non possono essere di alcuna utilità al cliente Rende difficile una strategia a lungo termine 3

4 Analisi della qualità dei dati L analisi della qualità dei dati va condotta tramite quattro fasi principali: Definizione delle dimensioni di qualità Analisi dei dati Misurazione delle dimensioni di qualità Miglioramento della qualità dei dati Definizione delle dimensioni di qualità dei dati 4

5 Definizioni di Dati (1) 1. I dati sono un insieme di fatti: i dati sono rappresentazioni di eventi appartenenti al mondo reale. 2. I dati sono il risultato di misurazioni: i dati vengono definiti dall indicazione di come sono stati ottenuti 3. I dati sono le materie prime delle informazioni: i dati costituiscono l input di un processo che genera informazioni Definizioni di Dati (2) 4. I dati sono rappresentati da tre caratteristiche: <entità,attributo,valore> I dati sono rappresentazioni di oggetti appartenenti alla realtà. Ogni oggetto è rappresentato da un entità che è definita da degli attributi. Ogni attributo ha un dominio ammissibile di valori Es. Entità: studente Attributi: N_matricola, nome, cognome, data di nascita. Valori: nome stringa di caratteri (Mario, Paolo ecc.) data di nascita formato gg/mm/aaaa 5

6 Dimensioni di Qualità dei Dati Categoria Schema logico Valore dei dati Rappresentazione dei dati Contenuto Copertura Livello di dettaglio Accuratezza Completezza Appropriatezza Interpretabilità Portabilità Precisione del formato Dimensioni Composizione Consistenza Reazione al cambiamento Currency Consistenza Flessibilità del formato Abilità a rappresentare i valori nulli Uso efficiente della memoria (Redman 1996) Dimensioni - Accuratezza L accuratezza di un dato <e,a,v> si riferisce alla vicinanza del valore v ad un valore v che è considerato corretto per l entità e e l attributo a. Se v coincide con v allora il dato viene definito corretto. Una misura aggregata dell accuratezza può essere espressa come rapporto tra i valori corretti e il numero totale dei valori 6

7 Dimensioni - Completezza La completezza si riferisce al grado con cui una determinata entità è rappresentata all interno della base di dati La completezza può essere rappresentata dalla percentuale con cui i valori sono presenti in un insieme di dati Criticità nel trattamento del valore null, che può essere interpretato come: Valore sconosciuto di un attributo ( e indicatore di incompletezza) Un attributo non applicabile (e indicatore di completezza) Un attributo di sconosciuta applicabilità Valore speciale di un attributo (e indicatore di completezza) Dimensioni - Currency Age [Bovee et al. 2001] [Ballou et al. 1998] [Wang and Strong 1996] T origin T input T update T use t Currency è la misura del grado di aggiornamento di un dato. Un dato è non aggiornato se è incorretto al tempo t 1 ma era corretto al tempo t < t 1 [Redman 1996] 7

8 Dimensioni - Consistenza La consistenza è generalmente definita come la proprietà di diversi valori di non entrare in conflitto tra di loro. Problemi di consistenza si hanno quando due o più collezioni di dati si sovrappongono La consistenza è comunemente definita a tre livelli : Consistenza delle viste: definita come consistenza semantica, si riferisce alla consistenza tra gli attributi delle diverse entità considerate. Consistenza di valore: esamina conflitti tra valori dei dati. L inconsistenza si verifica quando due o più valori non possono essere corretti contemporaneamente. Es. città e c.a.p Consistenza della rappresentazione: si riferisce alla consistenza tra formati di rappresentazione Analisi dei dati 8

9 Analisi delle dimensioni di qualità L analisi delle dimensioni di qualità dei dati è vincolata all analisi del processo in cui dati vengono utilizzati. E necessario analizzare il processo di origine e individuare le attività che introducono errori o influenzano la qualità dei dati Il ciclo di vita dei dati (1) Il processo di memorizzazione visto come attività principale in un sistema informativo I sistemi possono essere classificati in relazione del ruolo dato alla memorizzazione dei dati: Se la memorizzazione dei dati è la fase finale, il sistema si dice di Acquisizione Attività di acquisizione 9

10 Il ciclo di vita dei dati (2) Se l accesso a dati memorizzati è l attività iniziale, il sistema si dice di Utilizzo Attività di utilizzo Il sistema si dice di tipo Combinato se i processi utilizzano e acquisiscono i dati Attività di acquisizione Attività di utilizzo Ciclo di acquisizione dei dati Le principali attività incluse nel ciclo di acquisizione sono le seguenti: Definire la view dei dati: una view è composta dalle parti del mondo reale che devono essere memorizzate. Devono essere specificate una o più entità con gli attributi relativi. Implementazione: dopo aver definito gli elementi che devono essere memorizzati, si devono tenere conto restrizioni e/o limitazioni imposte dal mezzo di memorizzazione e dal DBMS. Viene definito lo schema dei dati. Ottenere i valori: si acquisiscono i valori degli attributi delle singole istanze delle entità definite. Aggiornare record: i dati sono memorizzati in uno o più database. Il termine aggiornare include l inserimento di un nuovo record, cancellazione e modifica dei record esistenti 10

11 Ciclo di utilizzo Le principali attività incluse nel ciclo di utilizzo sono le seguenti: Definire una subview: tipicamente un processo di utilizzo userà solo una piccola parte dei dati disponibili. Si definisce il sottoinsieme di dati da utilizzare Recupero: i dati precedente memorizzati vengono recuperati Manipolazione: i dati recuperati vengono utilizzati come input in un processo di trasformazione che deve generare come output i dati soddisfacenti la richiesta di un utente Presentazione risultati: i risultati devono essere presentati all utente finale con una rappresentazione appropriata che dipende da molti fattori: la natura del risultato, il mezzo di visualizzazione, e le preferenze dell utente Utilizzo dei dati: L utilizzatore del dato potrà giudicare la qualità dello stesso Ciclo di vita modificato per il miglioramento della qualità dei dati (1) Per migliorare la qualità dei dati bisogna inserire: Valutazione (Assessment): in questa fase si valuta la qualità dei dati ottenuti. E necessario valutare le dimensioni legate ai valori dei dati: consistenza, accuratezza, currency, e completezza. Se i dati sono di qualità accettabile sono memorizzati, altrimenti attività correttive sono intraprese. Analisi: in questa fase vengono individuate le ragioni della bassa qualità dei dati riscontrata nella fase di valutazione Correzione: In molti casi, i dati insoddisfacenti possono essere corretti o migliorati Scarto: se un dato giudicato di bassa qualità non può essere corretto, dovrebbe essere scartato 11

12 Ciclo di vita modificato per il miglioramento della qualità dei dati (2) Definizione view Ottenimento valori Valutazione Implementazione Memorizzazione Scarto Analisi Ciclo di acquisizione Definizione sottoinsieme Recupero Valutazione Manipolazione presentazione Valutazione Uso Valutazione Analisi Ciclo di utilizzo Ottenere nuovi valori Cancella Ridefinire le viste Un metodo standard per l analisi l delle dimensioni di qualità: : IP-MAP Per fare l analisi delle dimensioni di qualità è necessario adottare meccanismi di data tracking Un Information Product MAP è un modello grafico progettato per aiutare a comprendere, valutare e descrivere il modo in cui un informazione viene assemblata Il prodotto informativo viene generato da due elementi principali: Raw data items: dati elementari utilizzati per creare l informazione finale Component data items: informazioni intermedie necessarie per produrre il prodotto finale 12

13 Costruzione e utilizzo di IPMAP La costruzione e l utilizzo di IP-MAP si compone di cinque fasi: Catalogare i prodotti informativi Si definisce la natura del prodotto, chi lo utilizza, quando si utilizza, qual è il processo che permette di creare il prodotto ecc. Identificazione dei prodotti informativi critici: prodotti che non possono riportare errori in quanto si causerebbero danni agli utenti del processo Definizione dei requisiti di qualità Costruzione IP-MAP Definizione e miglioramento della qualità del prodotto informativo Costruzione di IP-MAP: blocchi principali Nome blocco Source (raw input block) Customer (output) block Data Quality block Processing block Data Storage block Decision block Business Boundary block Information System Boundary block Simbolo Significato Blocco usato per rappresentare la sorgente di ogni raw data che può essere utilizzata per produrre il prodotto informativo Blocco usato per rappresentare gli utenti del prodotto informativo. L utente specifica i dati che costituiscono il prodotto finito Blocco utilizzato per rappresentare i punti in cui è necessario eseguire dei controlli sulla qualità dei dati Blocco utilizzato per rappresentare ogni manipolazione, calcolo o azione che interessa qualche raw data Blocco usato per rappresentare la memorizzazione di dati in file o basi di dati Blocco utilizzato per rappresentare delle condizioni che devono essere valutate prima di attivare specifiche procedure Blocco utilizzato per specificare il passaggio delle informaizoni attraverso diversi dipartimenti o organizzazioni Blocco utilizzato per specificare le trasformazioni che i dati devono subire passando da un sistema informativo a un altro 13

14 Account data Account activities Account management Customer data Credit Card Extraction Extraction Extraction Extraction Extraction CD 3 CD 4 CD 2 CD 1 CD 5 Integration CD 6 Transformation CD 7 Global account RD 11 View and print balances Account activities Send a request Send a request Query definition Extraction Aggregation CD 8 CD 9 Open a saving account Move money Insert data customer Insert transfer request Elaborate from Home banking application Pay bills Insert transfer request Format data Report definition CD 10 Choice service IP 1 RD 1 Customer accesses Home banking service Customer view accounts activities Misurazione delle dimensioni di qualità 14

15 Processo di misurazione Il processo di misurazione risulta complesso dal momento che non ci sono algoritmi precisi per il calcolo delle singole dimensioni Algoritmi consolidati esistono per le dimensioni: Completezza Accuratezza Currency (e timeliness) Completezza Considerando un attributo in una tupla t e il suo valore v: se v= null completezza (v)=0 se v <> null completezza (v)=1 Completezza della tupla può essere calcolate come: Completezza( t) = i= 1 completezza( v ) Dove N è il numero di attributi che compongono lo schema N N i 15

16 Accuratezza L accuratezza si misura considerando una sorgente di benchmark e paragonando i valori contenuti all interno del database v i con valori di benchmark considerati corretti. se v = v ' accuratezza( v ) = 1 L accuratezza totale risulta: i i i se v v ' accuratezza( v ) = 0 Accuratezza( t) = i N i= 1 accuratezza( v ) N i i i Currency e timeliness La currency è comunemente associata alla data dell ultimo aggiornamento. La currency viene utilizzata nel calcolo della timeliness La timeliness è la dimensione che rivela il grado di aggiornamento dei dati : currency( v ) i Timeliness( vi ) = max 1 ;0 volatility( vi ) 16

17 Altre misurazioni utili per la valutazione della qualità Oltre alla valutazione diretta delle dimensioni di qualità dei dati attraverso: La valutazione dei valori dei dati e dei tipi La loro vicinanza a valori di riferimento La verifica di assenza di duplicati La verifica di correttezza secondo le regole di integrità referenziale è importante anche analizzare i dati all interno del processo, in particolare: Le caratteristiche dei dati: si verifica che i valori dei dati siano conformi a regole di funzionamento dello specifico processo Analisi dei protocolli di sistema (es. numero di record non aggiornati) Il volume dei dati trattati: le analisi mirano a identificare anomalie nell utilizzo dei dati o periodicità Plausibilità (es. distribuzione dei dati) Verifica dei dati con altri sistemi e sorgenti Inoltre bisogna considerare: La valutazione fatta dagli utenti utilizzatori dei dati e dai clienti dell organizzazione misurabile ad esempio attraverso le lamentele o diversi riscontri Valutazioni fatte manualmente attraverso procedure di valutazione standard e tecniche varie Caratteristiche dei dati (Esempio) Credit authorisation Payout before authorisation Authorisation expired Credit Payout 17

18 Analisi del volume dei dati (Numero dei record)? Miglioramento della qualità dei dati 18

19 Strategie per il miglioramento della qualità dei dati Ci sono tre approcci che permettono di migliorare la qualità dei dati del proprio sistema: Ispezione e correzione: i dati sono controllati e confrontati con standard di qualità, gli elementi che non sono ritenuti idonei vengono scartati o corretti fino a quando non passano il controllo Miglioramento e controllo dei processi: l obiettivo è identificare e eliminare le cause di errori Progettazione dei processi: nella fase di progettazione si tiene conto della qualità Ispezione e correzione Laissez-faire: i clienti trovano gli errori e l impresa cerca di correggerli Confronto dei valori con le controparti del mondo reale: tecnica molto costosa e lunga. Non aiuta a prevenire gli errori futuri Database bashing: confronta i record fra due o più database. Ha tre svantaggi principali: L assunzione che i dati che coincidono siano uguali non è sempre corretta I dati usati come termine di confronto potrebbero essere di per sé sbagliati Non previene gli errori futuri Data edits: sono procedure automatiche che verificano che i valori dei dati e/o la loro rappresentazione soddisfino predeterminati vincoli. Questi vincoli sono a volte chiamati business rules 19

20 Miglioramento e controllo dei processi Diverse tecniche di gestione dei processi possono essere applicate alla catena di creazione dell informazione. Metodi che attraverso l uso di edits e data tracking effettuano le misurazioni delle performance dei processi Applicati alla catena dell'informazione gli edit possono visualizzare certi tipi di errore prima ancora che siano riportati nel database Per migliorare il processo, viene gestito un log dei fallimenti, che può essere studiato per determinare i pattern di errore e eliminare le cause. Progettazione dei processi Progettazione dei processi consiste nel fare processi che siano a prova di errore Vengono direttamente inseriti nel processo degli strumenti di misurazione che consentono di controllare e migliorare il processo dall interno del processo stesso. Utilizzo dell IT per minimizzare le attività di interazione diretta tra l utente e il dato per quelle operazioni considerate più a rischio (es. data entry, cambio di formato, ecc.) 20

21 Riepilogo dei principali metodi per il miglioramento di DQ Laissez-faire Metodo Confronto dei valori con le controparti del mondo reale Database bashing, one time Database bashing, ongoing Cleaning, usando data edits, one time Cleaning, usando data edits, ongoing Miglioramento e controllo dei processi Miglioramento Breve Termine Basso Alto Medio Medio Medio Medio Medio Lungo termine Basso Basso Basso Medio Basso Medio Alto Progettazione di processi a Medio Alto prova di errore Costi totali Breve Termine Alto Alto Medio Medio Medio Medio Medio Medio Lungo termine Alto Alto Alto Molto Alto Alto Alto Basso Molto Alto Dati non importanti Per valutare livelli di qualità correnti Quando un secondo DB è disponibile Mai Su dati che non vengono aggiornati spesso Mai Quando è appropriato Su dati che vengono creati o aggiornati frequentemente Ogni volta che un nuovo processo viene progettato o re-ingegnerizzato Metodi per il miglioramento della qualità dei dati alta Frequenza di cambiamento Proactive Data Quality Management bassa Laissez faire Data Cleansing bassa alta Rilevanza dei dati Le misure proattive sono sempre quelle da preferire [de Fries, Seidl und Windheuser 1999] 21

22 Data Quality Management Quality Philosophy Quality Culture Data Quality Policy Data Quality Strategy Strategic Management Data Quality Planning Data Quality Control Definition and Specification of quality objectives Feedback and control Operative Management Information Management [Helfert, Herrmann 2003] Data Quality Management è più che Data Cleaning! 6% 59% 35% Data Cleansing DQM Both (Cleansing & DQM) [Helfert 2002] Definire obiettivi di qualità Analizzare l esistente qualità dei dati Identificare le cause e gli effetti della scarsa qualità dei dati Analizzare il costo e i benefici della qualità dei dati Sviluppare misure per migliorare la qualità dei dati 22

23 External Transaction oriented s(call Center, WWW-Portal, CRM) Operative Data Sources Non relational other DB 2 Net ORACLE Operational Data Store Transformation Component Data Warehouse Data Base Data Warehouse Data Base Data Marts End-User-Tools BERI CH T ' EI NNAH ME N U ND A USG ABEN ' b i s Es s e n 40, 34% Son s t i g e 3 3, 08 % Fr ei ze i t 10, 63% St ud i um 15, 95% Il concetto di DQM proattivo Definizione dei requisiti di qualità dei dati Misurazione del livello corrente di qualià Requisiti Processo organizzativo Valori di qualità Struttura organizzativa (ruoli e responsabilità) Extraction, Transformation, Loading Tecniche e strumenti Cambio di sistema Standard e regole Efficacia Efficienza Identificazione e passi Implementativi per migliorare Continuamente la qualità dei dati Analisi Cause Mancanza di dati Analisi Effetti e implicazioni Diversi approcci per diversi tipi di sistemi informativi Le problematiche relative alla qualità dei dati sono diverse a seconda del sistema informativo in cui si opera: Centralizzati Distribuiti Sistemi informativi direzionali di tipo data warehouse 23

24 SI centralizzati Ipotizziamo che in questi sistemi si operi con un unico database. Per selezionare il miglior metodo di miglioramento dei dati dobbiamo valutare il turnover dei parametri: frequenza delle creazione e aggiornamento dei dati Se il turnover dei parametri è alto metodo di miglioramento e controllo dei processi Se il turnover dei parametri è basso metodo di ispezione e correzione Se il turnover dei parametri è medio o misto Prima si applicano metodi di miglioramento e controllo dei processi e poi metodi di ispezione e correzione In tutti i casi ogni volta che si progetta un nuovo processo, si inseriscono nello stesso procedure per il controllo della qualità dei dati SI distribuiti In questi sistemi i dati da migliorare sono contenuti in più database. Si possono presentare tre casi: I dati contenuti nei database non si sovrappongono per ogni database sono valide le considerazioni fatte per il SI centralizzato I dati sono contenuti sia nel database A che B ma il database B utilizza il database A come sorgente per il database A sono valide le considerazioni fatte per i SI centralizzati e B eredita le correzioni I dati sono contenuti in più database ma manipolati da processi diversi. Più alternative: Tenere i database divisi e usare periodicamente una tecnica di database bashing (sconsigliato) Rivedere la composizione dei processi e controllare se è proprio necessario mantenere la gestione dei database separata Cercare di instaurare fra i due database un rapporto di master/slave 24

25 Sistemi informativi direzionali di tipo data warehouse Metà dei costi associati all implementazione di un data warehouse sono imputabili alla scarsa qualità dei dati I sistemi con data warehouse aumentano la ridondanza dei dati, un generico processo per sviluppare un piano operazionale mirato al miglioramento dei dati si compone dei seguenti passi: Analisi della strategia di business, dei problemi noti, dei tassi di errore e dei costi Selezione dei dati da cui si riescono a definire i requisiti di qualità e determinazione delle basi di dati e processi ad essi associati Selezionare i database principali (master databases) Eliminazione dei processi ridondanti Applicare il metodo di miglioramento opportuno (caso SI centralizzato) In dettaglio: problemi di qualità dei dati nei data warehouse 25

26 BERI CH T ' EINNAH M EN UND AUS G ABEN' b i s S o ns t i g e 3 3, 08 % Fr e i z e i t 1 0, 6 3 % S t ud i um 15, 9 5% Ess e n 40, 34 % BERI CH T ' EI NNAH M EN UND AUSG ABEN' b i s So n s t i ge 3 3, 0 8% F r ei z ei t 10, 63 % S t ud i um 1 5, 9 5 % Es s e n 4 0, 3 4% La scarsa qualità dei dati è percepita attraverso inconsistenze... Qual è il vero valore dell informazione per i clienti? Osservazione diretta Rappresentazione del Sistema Informativo Mondo reale Operative Data Transformation Data Warehouse Sources Component Data Base External Net ORACLE Data Warehouse DB 2 Data Base other Non relational Extraction, Transformation, Loading Data Marts End-User-Tools Interpretazione data user s Percezione data user s dei real real world dati da world parte degli perception perception utenti Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Inconsistenze percepite Scarsa qualità dei dati percepita [ see also Wand, Wang 1996] Problemi chiave di qualità dei dati Estrazione e interpretazione dati operazionali Integrazione di diversi sistemi operazionali Applicazione / (Interpretazione dati lato utente) Trasferimento dati Acquisizione dati Operative Data Sources Transformation Component Data Warehouse Data Base Data Marts End-User-Tools External Non relational Net ORACLE DB 2 other Extraction, Transformation, Loading Data Warehouse Data Base Transaction oriented s(call Center, WWW-Portal, CRM) Operational Data Store 26

27 Interpretazione dati (Esempio)... Name Date of Birth Product Price Day Keane 09/03/70 AB 14.3 SFR O Conner AC 27.2 EUR O Conner 14/07/65 BB Schmidt 1/1/11 AC 26.2 EUR Keane 09/03/70 BA??? Duplicati/ridondanze Uso di valori di default... C# Name Date of Birth Keane 09/03/70... O Conne /07/65... r... 3 Schmidt Null Codice non esplivativo C# P-Cat. 1 A 2 A 2 B Problemi di formato Incompletezza Referenza temporale impliita P# Cur. Price Date... 2 SFR /11/ EUR /11/ EUR /11/ A 1 B 3 SFR /11/ Null Null 14/11/00... Approcci per l estrazione l e trasferimento dei dati Frequentemente risolti in cooperazione con i dipartimenti operativi Spesso gli errori vengono automaticamente risolti nel processo di trasferimento dati Feedback dei problemi di qualità dei dati Data Warehouse Semantic Syntax Sviluppo di una logica di trasformazione per il trasferimento dati (mapping) Fornitura dei dati secondo gli standard concordati Conoscenza implicita Op. System Semantic Syntax Scarsa qualità dei dati (ma tollerata a livello operativo) Sviluppo di definizioni esatte (descrizione dati, origine dei dati, formato dei dati) 27

28 Problemi di integrazione (Esempio) Tabelle con dati ridondanti (indirizzo) in diversi sistemi operazionali... Name Street ZIP City Phone Fax O Conner Ballymon Rd. 5 9 Dublin Ahern Griffen Av. 24 Galway Correct address data Office information... Name Street ZIP City Phone Fax O Conner Finglass Rd Dublin Ahern Galway Private information I dati sono raccolti per diversi scopi La standardizzazione può disturbare i processi organizzativi a livello operativo I problemi di integrazione sono... Molto complessi e costosi in termine di tempo, dal momento che diverse unità organizzative sono coinvolte (lunghe procedure decisionali, analisi complessa dei problemi, fattori politici) Difficili da analizzare e quindi implicano un alto rischio di progetto Sono causati maggiormente da problemi organizzativi piuttosto che tecnici, e.g. Mancanza di attenzione per la qualità dei dati e dell informazione Mancanza di standard / procedure per lo sviluppo di applicazioni Sviluppo indipendente dei concetti organizzativi e di sistema Addestramento del personale insufficiente Sicurezza delle informazioni 28

29 Processo di trasferimento e consistenza temporale Real world Data- Warehouse- Database Operational Systems [Helfert 2002] Un caso di studio: qualità dei dati in un istituto finanziario 29

30 Il caso di studio Obiettivi del progetto: Analizzare la situazione corrente di qualità dei dati Analizzare i requisiti di qualità dei dati degli utenti finali Sviluppare un sistema concettuale di qualità dei dati per la banca Definizione di una serie di regole per gestire la qualità dei dati per specifiche aree applicative Incentivare del trattamento della qualità dei dati e guadagnare l attenzione da parte dell intera direzione aziendale Sviluppo di una strategia orientata alla qualità dei dati [Helfert 2002] 30

31 l B ERI CH T ' EI NNAH M E N UND AUS G ABE N' b i s Son s t i g e 33, 08 % Fr ei z ei t 1 0, 63% St u di um 1 5, 9 5% E s s en 4 0, 34% Esempi di regole operative per il controllo della qualità >conta tutti i conti correnti che sono stati chiusi ma a cui Non è associata nessuna data di chiusura select count(account_id) from pkw_accounts where substr(appl_flags_1,8,1) = '1' and account_closing_date is null >GESTIONE DI ECCEZIONE: tra marzo 2001 e Dicembre 2001 la tabella cr_col_cat >è aumentata da a righe per mese. >EXCEPTION: >In gennaio 2002 ci si aspetta un aumento solo di un terzo delle righe del mese precedente select count (*) from cr_col_cat a where a.date_per = to_date(' ','dd.mm.yyyy') Data Cleansing (passi principali) Documentazione (documentare i risultati del passo del processo di dati cleansing in metadati) Householding (combinare record individuali che sono attribuiti allo stesso indirizzo) Trasformazione dei dati (es.1 per uomini, e 2 per donne diventano M e F) Record matching (determinare se due record si riferiscono allo stesso soggetto) Correzione e verifica dei dati (confronta i dati con liste certificate, es. Codici postali, liste di prodotti) Standardizzazione (adottare formati standard per alcuni valori dei dati) Parsing (scomporre il record in unità atomiche) Datenquellen Data Warehouse Datenbank Data Marts Transformationskomponente End-User- Werkzeuge [Neely 1998] External Net ORACL E DB 2 other Non relationa Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Extraction, Transformation, Loading Data Warehouse Data Base 31

32 Esempi di specifiche per la qualità (regole) Criteria Approach Example Domain and attribute Value corresponds specified Data type / format Value is within range of values DateOfBirth IS Date <= DateOfBirth <= Today Obligatory fields (missing values) DateOfBirth NOT NULL Plausibility Record and relation Referential integrity Relations between records Key values are unique Foreign key relations (Product#= 4x AND CustomerCode = 1x) credit_balance >= Account# NOT NULL AND UNIQUE Account.Customer# IN Customer.Customer# Sum of credit balances from system A is equivalent to former balance + account movements Other integrity constrains Relations between different attributes Average balance is related to Number of Customers (e.g. Average Credit_Balance is within a plausibility interval dependent on Number of Customers) Data volumes (Number of records) Number of account movements are within a plausibility interval (e.g <= (COUNT (*) FROM Account WHERE Transaktion_Date = Today) <= ) Test for execution of scheduled Tecnologie Timeliness per i Sistemi Informativi, Transfer Processes Transfer process T is at scheduled time t completed (e.g. scheduled_time = start_time AND Status = completed ) Esempio di analisi dei dati Città City Data di of nascita Birth St. Gallen

33 Modifiche nei processi: ciclo di pianificazione e controllo della qualità dei dati [Helfert, Herrmann 2003] Modifiche nei processi: Pianificazione della qualità dei dati [Helfert, Herrmann 2003] 33

34 Modifiche nei processi: controllo della qualità dei dati [Helfert, Herrmann 2003] database Valori di tolleranza: > 30 Azione da effettuare in caso di violazione delle regole? Risultati attesi Casi di test e regole SQL-Script Notifica: History log file [Winter, Helfert, Herrmann 2002] 34

35 Utilizzo effettivo del sistema implementato: indagine dei clienti dell istituto finanziario Indagine dei clienti Gestione del rischio Reputazione Legale Operazionale Si investiga per la riduzione del rischio Frequenza e Qualità dell indagine Sui clienti Lotta contro il terrorismo Implementare misure per contrastare il finanziamento del terrorismo Preliminare identificazione dei terroristi fra I clienti Mezzi per contrastare il riciclo di denaro Monitoraggio delle transazioni Indagini Si indagano clienti che effettuano transazioni sospette 35

36 Problema: : un nome non è un identificatore unico Esempio: Hans Müller 1190 matches Hans Müller, matches Hans Müller, Zurigo 58 matches Hans Müller, Zurigo, match Problema: affrontare diversi problemi di qualità dei dati Esterne Esempio: In molti nomi stranieri si ha difficoltà nel capire quale sia il cognome Definizione della data di nascita Interne Esempio: Crescita incrementale del sistema Date di nascita inserite in modo automatico (es ) Typos (es. Smith -> Simth) Inserimento di campi che consentono l inserimento di testo libero nel sistema 36

37 Problema: : Un nome può essere scritto in diversi modi Individuo #1 - Adnan El Shukrijumah Name Component Variant Form Relative Frequency Interpretazione dei nomi dipende dal contesto sociale e culturale ADNAN ADNAN COMMON ADNANE COMMON ALADNAN LESS COMMON EL SHUKRI SHUKRI COMMON SHOUKRY COMMON SHOKRY COMMON SHOKRI LESS COMMON CHOUKRI LESS COMMON SHUKRY LESS COMMON SHOUKRI LESS COMMON CHUKRI LESS COMMON ALSHUKRI LESS COMMON CHOUKRY LESS COMMON CHOQRI LESS COMMON JUMAH JUMA COMMON GOMAA COMMON JUMAH COMMON JOMAA COMMON ALJUMAH COMMON JUMAA COMMON ALJUMA COMMON ALJUMAAH COMMON JOUMAA LESS COMMON JOMAH LESS COMMON GOMA LESS COMMON ALJOMAH LESS COMMON GOMMA LESS COMMON JUMAAH LESS COMMON ALJOMAAH LESS COMMON Example courtesy of Tobi Moriarty / / Problema: controllo dei dati inseriti World-Check Updates per Day (October January 2004) Updates 1500 Average: 240 Updates / Inserts per Day Dates I controlli iniziali non bastano, i dati possono essere soggetti a modifiche, ci vuole monitoraggio!

38 Come è stato modificato il processo. Investigations & Inquiries Inquirer E stato adottato un processo breve e efficiente Una sola interfaccia al sistema Utilizzo del data warehouse descritto precedentemente Evoluzione del processo di indagine < telefono - FAX telefono - FAX 40+ standard di interrogazione Consultazione parallela dello stesso sistema Coinvolgimento di terze parti solo se necessario ma si possono consultare da un unica postazione più di 16 basi di dati differenti Tutti i dati necessari accessibili Da un unico sistema 38

39 Il nuovo processo: l applicazione trova i nomi scritti in modo errato Visualizzazione dei dettagli dei clienti 39

40 L applicazione per la ricerca di un azienda Visualizzazione dei dettagli delle aziende 40

41 L applicazione che consente di trovare i possibili clienti sospetti oltre all applicazione applicazione Migliorare l interfaccia di inserimento dati nello strumento attraverso cui si inseriscono i dati della clientela (evitare campi memo, eseguire controlli preliminari ecc.) Ridurre il numero dei campi per la ricerca dei nomi (es. meta-database) Usabilità: pensare prima a falsi positivi e poi a confronti reali Se utile, aggiungere informazioni provenienti da terze parti nel sistema, per supportare il processo decisionale Bilanciare l utilizzo dei tre ingredienti: dati, utente e algoritmi 41

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Introduzione alle Basi di Dati

Introduzione alle Basi di Dati 1 Introduzione alle Basi di Dati Massimo Paolucci (paolucci@dist.unige.it) DIST Università di Genova Sistema Azienda 2 Sistema organizzativo è costituito da una serie di risorse e di regole necessarie

Dettagli

Sistema di Gestione di Basi di Dati DataBase Management System DBMS

Sistema di Gestione di Basi di Dati DataBase Management System DBMS Base di dati (accezione generica) collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni di una organizzazione (accezione specifica) collezione di dati

Dettagli

Informatica B. Contenuti. Introduzione alle Basi di Dati e ai DBMS. Introduzione a dati e basi dati DBMS Modello dei dati

Informatica B. Contenuti. Introduzione alle Basi di Dati e ai DBMS. Introduzione a dati e basi dati DBMS Modello dei dati Informatica B Introduzione alle Basi di Dati e ai DBMS Contenuti Introduzione a dati e basi dati DBMS Modello dei dati Informazioni e dati Dato: elemento semanticamente significativo (data, codice, ecc.),

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Sistemi Informativi Aziendali II

Sistemi Informativi Aziendali II Modulo 2 Sistemi Informativi Aziendali II 1 Corso Sistemi Informativi Aziendali II - Modulo 2 Modulo 2 La gestione delle informazioni strutturate nell impresa: La progettazione di un Data Base; Le informazioni

Dettagli

SAP Assure SAP Integrity Assure Tool

SAP Assure SAP Integrity Assure Tool Enterprise Fraud Application Risk Management Solution SAP Assure SAP Integrity Assure Tool Agenda Introduzione a SAP Assure Tool Suite Focus su Assure Integrity Presentazione di un caso pratico 1 I prodotti

Dettagli

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità

Dettagli

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza:

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza: DOMANDE 1) Definire i concetti di schema e istanza di una base di dati, fornendo anche un esempio. Si definisce schema di una base di dati, quella parte della base di dati stessa che resta sostanzialmente

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

DATA BASE MANAGEMENT SYSTEM

DATA BASE MANAGEMENT SYSTEM DATA BASE (1) Problematica gestione dati: oggetti delle elaborazioni, difficili da gestire, memorizzare, reperire, modificare; talvolta ridondanti/incongruenti; non sufficientemente protetti; spesso comuni

Dettagli

Basi di Dati Complementi Esercitazione su Data Warehouse

Basi di Dati Complementi Esercitazione su Data Warehouse Sommario Basi di Dati Complementi Esercitazione su Data Warehouse 1. Riassunto concetti principali dalle slide della lezione di teoria 2.Studio di caso : progettazione di un Data Warehouse di una catena

Dettagli

Dal Data Cleaning alla certificazione di qualità per i dati. PAOLO MISSIER University of Manchester, UK - ricercatore

Dal Data Cleaning alla certificazione di qualità per i dati. PAOLO MISSIER University of Manchester, UK - ricercatore Dal Data Cleaning alla certificazione di qualità per i dati PAOLO MISSIER University of Manchester, UK - ricercatore Una definizione classica di qualità dei dati Qualità di un dato: insieme di metriche

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati INTRODUZIONE Accesso ai dati tramite DBMS Livelli di astrazione Modello dei dati: schema / istanza / metadati Alcuni modelli dei dati Linguaggi per DBMS Architettura di base di un DBMS cesarini - BDSI

Dettagli

LABORATORIO. 2 Lezioni su Basi di Dati Contatti:

LABORATORIO. 2 Lezioni su Basi di Dati Contatti: PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE Gennaro Cordasco e Rosario De Chiara {cordasco,dechiara}@dia.unisa.it Dipartimento di Informatica ed Applicazioni R.M. Capocelli Laboratorio

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Basi di dati Il linguaggio SQL

Basi di dati Il linguaggio SQL Basi di dati Il linguaggio SQL teoria e pratica con Microsoft Access Riepilogando Nelle basi di dati esiste 1. una parte invariante nel tempo, lo schema, costituita dalle caratteristiche dei dati (nomi

Dettagli

Basi di dati Il linguaggio SQL

Basi di dati Il linguaggio SQL Riepilogando Basi di dati Il linguaggio SQL Nelle basi di dati esiste 1. una parte invariante nel tempo, lo schema, costituita dalle caratteristiche dei dati (nomi degli attributi, domini, 2. una parte

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

TEORIA sulle BASI DI DATI

TEORIA sulle BASI DI DATI TEORIA sulle BASI DI DATI A cura del Prof. Enea Ferri Cos è un DATA BASE E un insieme di archivi legati tra loro da relazioni. Vengono memorizzati su memorie di massa come un unico insieme, e possono essere

Dettagli

DB2 Universal Database (UDB) DB2 Universal Database (UDB)

DB2 Universal Database (UDB) DB2 Universal Database (UDB) DB2 Universal Database (UDB) Sistemi Informativi L-A Home Page del corso: http://www-db.deis.unibo.it/courses/sil-a/ Versione elettronica: DB2Presentazione2009.pdf Sistemi Informativi L-A DB2 Universal

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione SQL DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE SQL è più di un semplice linguaggio di interrogazione! Linguaggio di definizione dati (Data-definition language, DDL):! Crea/distrugge/modifica relazioni

Dettagli

INTRODUZIONE. Motivazioni e Obbiettivi

INTRODUZIONE. Motivazioni e Obbiettivi INTRODUZIONE Motivazioni dei sistemi distribuiti Caratteristiche generali Alcuni richiami sui database centralizzati Standardizzazione dei dati (ANSI/SPARC) Funzioni dei DBMS relazionali Problematiche

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

Data aggregation and risk infrastructure

Data aggregation and risk infrastructure Data aggregation and risk infrastructure Il Contesto di riferimento: Principi applicabili in ambito IT I principi di Data Risk Aggregation indirizzano 4 specifiche aree di controllo: 4 - Revisione, strumenti

Dettagli

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Roccatello Ing. Eduard L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Agenda Presentazione docente Definizione calendario Questionario pre corso

Dettagli

Corso di Laboratorio di Basi di Dati

Corso di Laboratorio di Basi di Dati Corso di Laboratorio di Basi di Dati F1I072 - INF/01 a.a 2009/2010 Pierluigi Pierini Technolabs S.p.a. Pierluigi.Pierini@technolabs.it Università degli Studi di L Aquila Dipartimento di Informatica Technolabs

Dettagli

Vincoli di Integrità Approccio dichiarativo alla loro implementazione

Vincoli di Integrità Approccio dichiarativo alla loro implementazione Vincoli di Integrità Approccio dichiarativo alla loro implementazione Antonella Poggi Dipartimento di informatica e Sistemistica SAPIENZA Università di Roma Progetto di Applicazioni Software Anno accademico

Dettagli

Sistemi Informativi e Basi di Dati

Sistemi Informativi e Basi di Dati Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli

Dettagli

Che cos è un DBMS? Capitolo 1. Perché usare un DBMS? DBMS. Descrizioni dei dati nei DBMS. Modelli di dati

Che cos è un DBMS? Capitolo 1. Perché usare un DBMS? DBMS. Descrizioni dei dati nei DBMS. Modelli di dati Che cos è un DBMS? Capitolo 1 Introduzione ai sistemi di basi di dati Una collezione integrata molto grande di dati Modella organizzazioni del mondo reale Entità (ad esempio studenti, corsi) Relazioni

Dettagli

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005. SQL Server 2005 Introduzione all uso di SQL Server e utilizzo delle opzioni Olap SQL Server 2005 SQL Server Management Studio Gestione dei server OLAP e OLTP Gestione Utenti Creazione e gestione DB SQL

Dettagli

La qualità delle informazioni:

La qualità delle informazioni: misurazione e controllo in Enterprise Data Warehouse FABIO BALDUZZI ICTEAM Torino / Direttore Tecnico 0 Dati strutturati INFORMAZIONI DMS Dati non strutturati DATI Contesto Esperienza Enterprise Knowledge

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Introduzione al Data Warehousing

Introduzione al Data Warehousing Il problema - dati IPERVENDO Via Vai 111 P.I.11223344 Vendite II Trim. (Milioni!) Introduzione al Data Warehousing tecnologia abilitante per il data mining ACQUA MIN 0.40 LATTE INTERO 1.23 SPAZZ.DENTI

Dettagli

Corso di Informatica Generale 1 IN1. Linguaggio SQL

Corso di Informatica Generale 1 IN1. Linguaggio SQL Università Roma Tre Facoltà di Scienze M.F.N. di Laurea in Matematica di Informatica Generale 1 Linguaggio SQL Marco (liverani@mat.uniroma3.it) Sommario Prima parte: le basi dati relazionali Basi di dati:

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Progettazione concettuale usando il modello Entità-Relazione (ER) e Progettazione Logica

Progettazione concettuale usando il modello Entità-Relazione (ER) e Progettazione Logica Progettazione concettuale usando il modello Entità-Relazione (ER) e Progettazione Logica 1 Introduzione alla progettazione delle basi di dati v Progettazione concettuale (in questa fase si usa il modello

Dettagli

MAX, SUM, AVG, COUNT)

MAX, SUM, AVG, COUNT) INTRODUZIONE A SQL Definizione di tabelle e domini Alcuni vincoli di integrità Struttura base SELECT FROM WHERE Funzioni di aggregazione (MIN, MAX, SUM, AVG, COUNT) Query da più tabelle (FROM R1, Rk) Join

Dettagli

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager è una soluzione completa

Dettagli

Laboratorio di Informatica

Laboratorio di Informatica Laboratorio di Informatica Corso di Laurea Interfacoltà in Biotecnologie Lezione 3: Basi di Dati Lucido 1 Scopo della lezione Definire cos è una base di dati e un sistema di gestione della base di dati

Dettagli

Le Basi di dati: generalità. Unità di Apprendimento A1 1

Le Basi di dati: generalità. Unità di Apprendimento A1 1 Le Basi di dati: generalità Unità di Apprendimento A1 1 1 Cosa è una base di dati In ogni modello di organizzazione della vita dell uomo vengono trattate informazioni Una volta individuate e raccolte devono

Dettagli

Basi di Dati: Corso di laboratorio

Basi di Dati: Corso di laboratorio Basi di Dati: Corso di laboratorio Lezione 2 Raffaella Gentilini 1 / 45 Sommario 1 Il DDL di SQL: Cancellazione ed Aggiornamento di una BD Cancellazione di Schemi, Tabelle, e Domini Aggiornamento di Tabelle

Dettagli

Prefazione Sistemi informativi e basi di dati Il modello relazionale Il modello ER

Prefazione Sistemi informativi e basi di dati Il modello relazionale Il modello ER Indice Prefazione XI 1 Sistemi informativi e basi di dati 1 1.1 La Gestione dell Informazione................... 1 1.1.1 Sistemi Informativi e Sistemi Informatici......... 1 1.2 Esempi di Sistemi Informativi...................

Dettagli

Corso di Amministrazione di Sistema Parte I ITIL 1

Corso di Amministrazione di Sistema Parte I ITIL 1 Corso di Amministrazione di Sistema Parte I ITIL 1 Francesco Clabot Responsabile erogazione servizi tecnici 1 francesco.clabot@netcom-srl.it Fondamenti di ITIL per la Gestione dei Servizi Informatici ITSM

Dettagli

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei Introduzione Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei. ESEMPI DI INSIEMI DI DATI DA ORGANIZZARE ED USARE IN MANIERA EFFICIENTE Introduzione Più utenti con

Dettagli

PIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE

PIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE Istituto di Istruzione Secondaria Superiore ETTORE MAJORANA 24068 SERIATE (BG) Via Partigiani 1 -Tel. 035-297612 - Fax 035-301672 e-mail: majorana@ettoremajorana.gov.it - sito internet: www.ettoremajorana.gov.it

Dettagli

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone SQL: il DDL Parti del linguaggio SQL Definizione di basi di dati (Data Definition Language DDL) Linguaggio per modificare

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Vincoli di Integrità

Vincoli di Integrità Vincoli di Integrità Antonella Poggi Dipartimento di informatica e Sistemistica Sapienza Università di Roma Progetto di Applicazioni Software Anno accademico 2010-2011 Questi lucidi sono stati prodotti

Dettagli

PROGRAMMA DI CLASSE 5AI

PROGRAMMA DI CLASSE 5AI Istituto di Istruzione Superiore Euganeo Istituto tecnico del settore tecnologico Istituto professionale del settore servizi socio-sanitari Istituto professionale del settore industria e artigianato PROGRAMMA

Dettagli

Il modello relazionale dei dati

Il modello relazionale dei dati Il modello relazionale dei dati Master Alma Graduate School Sistemi Informativi Home Page del corso: http://www-db.deis.unibo.it/courses/alma_si1/ Versione elettronica: 04Relazionale.pdf Obiettivi della

Dettagli

SQL IL LINGUAGGIO DI INTERROGAZIONE

SQL IL LINGUAGGIO DI INTERROGAZIONE SQL IL LINGUAGGIO DI INTERROGAZIONE SQL! Originato da SEQUEL-XRM e System-R (1974-1977) dell IBM! Significato originario Structured Query Language! Standard de facto! Attuale standard ANSI/ISO è SQL:1999

Dettagli

Gestione delle tabelle

Gestione delle tabelle Linguaggio SQL: fondamenti Creazione di una tabella Modifica della struttura di una tabella Cancellazione di una tabella Dizionario dei dati Integrità dei dati 2 Creazione di una tabella (1/3) Si utilizza

Dettagli

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL Basi di dati Il Linguaggio SQL Data Definition Language (DDL) Data Definition Language: insieme di istruzioni utilizzate per modificare la struttura della base di dati Ne fanno parte le istruzioni di inserimento,

Dettagli

SQL SQL. Definizione dei dati. Domini. Esistono 6 domini elementari:

SQL SQL. Definizione dei dati. Domini. Esistono 6 domini elementari: SQL SQL (pronunciato anche come l inglese sequel: acronimo di Structured Query Language (linguaggio di interrogazione strutturato Linguaggio completo che presenta anche proprietà di: DDL (Data Definition

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

SQL: Structured Query Language. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

SQL: Structured Query Language. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma SQL: Structured Query Language 1 SQL:Componenti Principali Data Manipulation Language (DML): interrogazioni, inserimenti, cancellazioni, modifiche Data Definition Language (DDL): creazione, cancellazione

Dettagli

DESIGNAZIONE: Rappresenta una relazione tra due entità di tipo 1 ad M. Esempio tipico è : REPARTO ------- IMPIEGATO

DESIGNAZIONE: Rappresenta una relazione tra due entità di tipo 1 ad M. Esempio tipico è : REPARTO ------- IMPIEGATO DESIGNAZIONE: Rappresenta una relazione tra due entità di tipo 1 ad M. Esempio tipico è : REPARTO ------- IMPIEGATO (designata) (designante) Viene rappresentata inserendo, nella tabella dell entità designante,

Dettagli

DATABASE. Progettare una base di dati. Database fisico e database logico

DATABASE. Progettare una base di dati. Database fisico e database logico DATABASE Progettare una base di dati Database fisico e database logico Un DB è una collezione di tabelle, le cui proprietà sono specificate dai metadati Attraverso le operazioni sulle tabelle è possibile

Dettagli

Introduzione a MySQL

Introduzione a MySQL Introduzione a MySQL Cinzia Cappiello Alessandro Raffio Politecnico di Milano Prima di iniziare qualche dettaglio su MySQL MySQL è un sistema di gestione di basi di dati relazionali (RDBMS) composto da

Dettagli

Sistemi di Gestione dei Dati e dei Processi Aziendali. Sistemi ERP e controlli automatici

Sistemi di Gestione dei Dati e dei Processi Aziendali. Sistemi ERP e controlli automatici Sistemi di Gestione dei Dati e dei Processi Aziendali Sistemi ERP e controlli automatici Obiettivi della sessione Al termine di questa sessione sarete in grado di: Descrivere gli obiettivi di un sistema

Dettagli

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. (Structured Query Language) : Il linguaggio è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. prima versione IBM alla fine degli anni '70 per un prototipo di ricerca (System

Dettagli

Il software: natura e qualità

Il software: natura e qualità Sommario Il software: natura e qualità Leggere Cap. 2 Ghezzi et al. Natura e peculiarità del software Classificazione delle qualità del software Qualità del prodotto e del processo Qualità interne ed esterne

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

Linguaggio SQL: fondamenti D B M G. Gestione delle tabelle

Linguaggio SQL: fondamenti D B M G. Gestione delle tabelle Linguaggio SQL: fondamenti Creazione di una tabella Modifica della struttura di una tabella Cancellazione di una tabella Dizionario dei dati Integrità dei dati 2 2007 Politecnico di Torino 1 Creazione

Dettagli

IS Governance. Francesco Clabot Consulenza di processo. francesco.clabot@netcom-srl.it

IS Governance. Francesco Clabot Consulenza di processo. francesco.clabot@netcom-srl.it IS Governance Francesco Clabot Consulenza di processo francesco.clabot@netcom-srl.it 1 Fondamenti di ISO 20000 per la Gestione dei Servizi Informatici - La Norma - 2 Introduzione Che cosa è una norma?

Dettagli

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File system verso DBSM Vantaggi di un DBMS Modelli dei dati Utenti

Dettagli

Sistemi Informativi e WWW

Sistemi Informativi e WWW Premesse Sistemi Informativi e WWW WWW: introduce un nuovo paradigma di diffusione (per i fornitori) e acquisizione (per gli utilizzatori) delle informazioni, con facilità d uso, flessibilità ed economicità

Dettagli

LA TECHNOLOGY TRANSFER PRESENTA MIKE ROMA 12-14 DICEMBRE 2012 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

LA TECHNOLOGY TRANSFER PRESENTA MIKE ROMA 12-14 DICEMBRE 2012 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 LA TECHNOLOGY TRANSFER PRESENTA MIKE FERGUSON ENTERPRISE DATA GOVERNANCE E MASTER DATA MANAGEMENT ROMA 12-14 DICEMBRE 2012 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 info@technologytransfer.it www.technologytransfer.it

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

L architettura di un DBMS

L architettura di un DBMS L architettura di un DBMS sources: Lucidi del corso di Lucidi del corso di Laboratorio di Basi di dati e sistemi informativi, Montesi, Magnani, Corso di laurea in Informatica per il management, Scienze

Dettagli

II Modulo Organizzazione dei Sistemi Informativi

II Modulo Organizzazione dei Sistemi Informativi II Modulo Organizzazione dei Sistemi Informativi DA CHE COSA E COMPOSTO COME SI ACCEDE CHI LO USA A CHE COSA SERVE Risorse hardware e software: - Server - LAN (router, HUB Firewall,..) - Storage - pacchetti

Dettagli

Corso di Informatica (Basi di Dati)

Corso di Informatica (Basi di Dati) Corso di Informatica (Basi di Dati) Lezione 1 (12 dicembre 2008) Introduzione alle Basi di Dati Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati 1, Prof. Carlo Batini,

Dettagli

Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R:

Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R: Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R: Si consiglia di creare il data base, inserire i dati nelle tabelle, provare

Dettagli

Introduzione ai sistemi di basi di dati

Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Alessandro.bardine@gmail.com alessandro.bardine@iet.unipi.it Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

SMS Strategic Marketing Service

SMS Strategic Marketing Service SMS Strategic Marketing Service Una piattaforma innovativa al servizio delle Banche e delle Assicurazioni Spin-off del Politecnico di Bari Il team Conquist, Ingenium ed il Politecnico di Bari (DIMEG) sono

Dettagli

BASI DI DATI. Queste slides sono un adattamento di quelle di Luca Anselma e Gian Luca Pozzato, cui va il mio ringraziamento

BASI DI DATI. Queste slides sono un adattamento di quelle di Luca Anselma e Gian Luca Pozzato, cui va il mio ringraziamento BASI DI DATI Queste slides sono un adattamento di quelle di Luca Anselma e Gian Luca Pozzato, cui va il mio ringraziamento BASI DI DATI (DATABASE, DB) Una delle applicazioni informatiche più utilizzate,

Dettagli

Facoltà di Pianificazione del Territorio A.A. 2011/2012. Informatica

Facoltà di Pianificazione del Territorio A.A. 2011/2012. Informatica Facoltà di Pianificazione del Territorio A.A. 2011/2012 Informatica Le basi di dati 2 Dati e Informazioni Un dato in sé non costituisce un informazione in quanto consiste semplicemente di un insieme di

Dettagli

SQL Server BI Development Studio

SQL Server BI Development Studio Il Data warehouse SQL Server Business Intelligence Development Studio Analysis Service Sorgenti dati operazionali DB relazionali Fogli excel Data warehouse Staging Area e dati riconciliati Cubi Report

Dettagli

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino Integration Services Project SQL Server 2005 Integration Services Permette di gestire tutti i processi di ETL Basato sui progetti di Business Intelligence di tipo Integration services Project SQL Server

Dettagli

Elena Baralis 2013 Politecnico di Torino 1

Elena Baralis 2013 Politecnico di Torino 1 Modello relazionale Docente M2170 Fondamenti di informatica Verdi M4880 Sistemi di elaborazione Bianchi F0410 Basi di dati Neri Docenti Nome Dipartimento Telefono Verdi Informatica 123456 Bianchi Elettronica

Dettagli

I Sistemi Informativi

I Sistemi Informativi I Sistemi Informativi Definizione Un Sistema Informativo è un mezzo per acquisire, organizzare, correlare, elaborare e distribuire le informazioni che riguardano una realtà che si desidera descrivere e

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli

Modulo Campaign Activator

Modulo Campaign Activator Modulo Campaign Activator 1 Che cosa è Market Activator Market Activator è una suite composta da quattro diversi moduli che coprono esigenze diverse, ma tipicamente complementari per i settori marketing/commerciale

Dettagli

Laboratorio di Progettazione e Sviluppo di Sistemi Informatici

Laboratorio di Progettazione e Sviluppo di Sistemi Informatici 1 Laboratorio di Progettazione e Sviluppo di Sistemi Informatici 2 Laboratorio di Progettazione e Sviluppo di Sistemi Informatici Parte del corso intersettoriale "Laboratorio di Progettazione e Sviluppo

Dettagli

Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica.

Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica. Progettazione logica Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica. La progettazione logica è basata su un particolare modello logico dei

Dettagli

Structured Query Language parte 1

Structured Query Language parte 1 Consorzio per la formazione e la ricerca in Ingegneria dell'informazione Structured Query Language parte 1 Come interrogare una base di dati relazionale ed avere la risposta esatta Docente: Gennaro Pepe

Dettagli

Basi di dati. Microsoft Access. Cosa è. Pietro Pala (pala@dsi.unifi.it) Come iniziare. Aprire un database. Creare un database. Creare un database

Basi di dati. Microsoft Access. Cosa è. Pietro Pala (pala@dsi.unifi.it) Come iniziare. Aprire un database. Creare un database. Creare un database Cosa è Basi di dati Pietro Pala (pala@dsi.unifi.it) Microsoft Access Access è un DBMS relazionale in grado di supportare: Specifica grafica dello schema della base dati Specifica grafica delle interrogazioni

Dettagli

Economia e gestione delle imprese

Economia e gestione delle imprese Anno accademico 2008-2009 Economia e gestione delle imprese Prof. Arturo Capasso 1 2 1 Ciclo dell informazione PROGRAMMAZIONE Decisioni ESECUZIONE Informazioni CONTROLLO Risultati 3 Organizzazione e Sistema

Dettagli