Data Quality. Cinzia Cappiello 14/11/2005 Politecnico di Milano. Tecnologie per i Sistemi Informativi,

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data Quality. Cinzia Cappiello 14/11/2005 Politecnico di Milano. Tecnologie per i Sistemi Informativi, 2005-2006"

Transcript

1 Data Quality Cinzia Cappiello 14/11/2005 Politecnico di Milano Perché la qualità dei dati è importante? La scarsa qualità dei dati si diffonde La scarsa qualità dei dati è costosa La qualità dei dati può essere migliorata La qualità dei dati può costituire un forte vantaggio competitivo 1

2 Motivazioni per una scarsa qualità dei dati Cambiamenti storici: l importanza di un dato può cambiare nel tempo Esempio: la data di nascita dei clienti per una compagnia assicurativa. Utilizzo dei dati: l importanza dei dati dipende dal processo in cui vengono utilizzati Esempio: processo operativo o decisionale Fusioni societarie: l integrazione dei dati può provocare difficoltà Leggi sulla privacy: molte nazioni proteggono la privacy degli individui. Arricchimento dei dati: è pericoloso arricchire i dati interni con sorgenti esterne. Un caso interessante di scarsa qualità Dicembre 2003 ponte tra Germania e Svizzera Gli svizzeri e tedeschi iniziarono a costruire un ponte di collegamento tra le due nazioni Nel punto di incontro trovarono che il ponte presentava un dislivello di 27 cm. Come mai? Il sistema tedesco prende come riferimento per misurare l altitudine il mar Baltico mentre il sistema svizzero il mar Mediterraneo. Inconsistenza tra formati Data quality problem!!! 2

3 Effetti della scarsa qualità dei dati (1) Diminuisce la soddisfazione della clientela Implica il sostenimento di costi alti e superflui Recenti studi hanno riportato che: Il costo diretto che un organizzazione deve sostenere per correggere errori nei dati ricevuti da una seconda organizzazione è il 6% del suo budget totale Il costo stimato che una compagnia deve sostenere per la scarsa qualità dei dati relativi alla clientela è circa il 6-14% dei ricavi Influenza i processi decisionali Implementare sistemi di data warehouse o data mining su dati di scarsa qualità è molto rischioso Effetti della scarsa qualità dei dati (2) Impedisce il re-engineering: in molti progetti di re-engineering la cosa fondamentale è individuare i dati giusti da collocare nel posto giusto al momento giusto per soddisfare le esigenze di un cliente. Ma se i dati individuati sono sbagliati, essi non possono essere di alcuna utilità al cliente Rende difficile una strategia a lungo termine 3

4 Analisi della qualità dei dati L analisi della qualità dei dati va condotta tramite quattro fasi principali: Definizione delle dimensioni di qualità Analisi dei dati Misurazione delle dimensioni di qualità Miglioramento della qualità dei dati Definizione delle dimensioni di qualità dei dati 4

5 Definizioni di Dati (1) 1. I dati sono un insieme di fatti: i dati sono rappresentazioni di eventi appartenenti al mondo reale. 2. I dati sono il risultato di misurazioni: i dati vengono definiti dall indicazione di come sono stati ottenuti 3. I dati sono le materie prime delle informazioni: i dati costituiscono l input di un processo che genera informazioni Definizioni di Dati (2) 4. I dati sono rappresentati da tre caratteristiche: <entità,attributo,valore> I dati sono rappresentazioni di oggetti appartenenti alla realtà. Ogni oggetto è rappresentato da un entità che è definita da degli attributi. Ogni attributo ha un dominio ammissibile di valori Es. Entità: studente Attributi: N_matricola, nome, cognome, data di nascita. Valori: nome stringa di caratteri (Mario, Paolo ecc.) data di nascita formato gg/mm/aaaa 5

6 Dimensioni di Qualità dei Dati Categoria Schema logico Valore dei dati Rappresentazione dei dati Contenuto Copertura Livello di dettaglio Accuratezza Completezza Appropriatezza Interpretabilità Portabilità Precisione del formato Dimensioni Composizione Consistenza Reazione al cambiamento Currency Consistenza Flessibilità del formato Abilità a rappresentare i valori nulli Uso efficiente della memoria (Redman 1996) Dimensioni - Accuratezza L accuratezza di un dato <e,a,v> si riferisce alla vicinanza del valore v ad un valore v che è considerato corretto per l entità e e l attributo a. Se v coincide con v allora il dato viene definito corretto. Una misura aggregata dell accuratezza può essere espressa come rapporto tra i valori corretti e il numero totale dei valori 6

7 Dimensioni - Completezza La completezza si riferisce al grado con cui una determinata entità è rappresentata all interno della base di dati La completezza può essere rappresentata dalla percentuale con cui i valori sono presenti in un insieme di dati Criticità nel trattamento del valore null, che può essere interpretato come: Valore sconosciuto di un attributo ( e indicatore di incompletezza) Un attributo non applicabile (e indicatore di completezza) Un attributo di sconosciuta applicabilità Valore speciale di un attributo (e indicatore di completezza) Dimensioni - Currency Age [Bovee et al. 2001] [Ballou et al. 1998] [Wang and Strong 1996] T origin T input T update T use t Currency è la misura del grado di aggiornamento di un dato. Un dato è non aggiornato se è incorretto al tempo t 1 ma era corretto al tempo t < t 1 [Redman 1996] 7

8 Dimensioni - Consistenza La consistenza è generalmente definita come la proprietà di diversi valori di non entrare in conflitto tra di loro. Problemi di consistenza si hanno quando due o più collezioni di dati si sovrappongono La consistenza è comunemente definita a tre livelli : Consistenza delle viste: definita come consistenza semantica, si riferisce alla consistenza tra gli attributi delle diverse entità considerate. Consistenza di valore: esamina conflitti tra valori dei dati. L inconsistenza si verifica quando due o più valori non possono essere corretti contemporaneamente. Es. città e c.a.p Consistenza della rappresentazione: si riferisce alla consistenza tra formati di rappresentazione Analisi dei dati 8

9 Analisi delle dimensioni di qualità L analisi delle dimensioni di qualità dei dati è vincolata all analisi del processo in cui dati vengono utilizzati. E necessario analizzare il processo di origine e individuare le attività che introducono errori o influenzano la qualità dei dati Il ciclo di vita dei dati (1) Il processo di memorizzazione visto come attività principale in un sistema informativo I sistemi possono essere classificati in relazione del ruolo dato alla memorizzazione dei dati: Se la memorizzazione dei dati è la fase finale, il sistema si dice di Acquisizione Attività di acquisizione 9

10 Il ciclo di vita dei dati (2) Se l accesso a dati memorizzati è l attività iniziale, il sistema si dice di Utilizzo Attività di utilizzo Il sistema si dice di tipo Combinato se i processi utilizzano e acquisiscono i dati Attività di acquisizione Attività di utilizzo Ciclo di acquisizione dei dati Le principali attività incluse nel ciclo di acquisizione sono le seguenti: Definire la view dei dati: una view è composta dalle parti del mondo reale che devono essere memorizzate. Devono essere specificate una o più entità con gli attributi relativi. Implementazione: dopo aver definito gli elementi che devono essere memorizzati, si devono tenere conto restrizioni e/o limitazioni imposte dal mezzo di memorizzazione e dal DBMS. Viene definito lo schema dei dati. Ottenere i valori: si acquisiscono i valori degli attributi delle singole istanze delle entità definite. Aggiornare record: i dati sono memorizzati in uno o più database. Il termine aggiornare include l inserimento di un nuovo record, cancellazione e modifica dei record esistenti 10

11 Ciclo di utilizzo Le principali attività incluse nel ciclo di utilizzo sono le seguenti: Definire una subview: tipicamente un processo di utilizzo userà solo una piccola parte dei dati disponibili. Si definisce il sottoinsieme di dati da utilizzare Recupero: i dati precedente memorizzati vengono recuperati Manipolazione: i dati recuperati vengono utilizzati come input in un processo di trasformazione che deve generare come output i dati soddisfacenti la richiesta di un utente Presentazione risultati: i risultati devono essere presentati all utente finale con una rappresentazione appropriata che dipende da molti fattori: la natura del risultato, il mezzo di visualizzazione, e le preferenze dell utente Utilizzo dei dati: L utilizzatore del dato potrà giudicare la qualità dello stesso Ciclo di vita modificato per il miglioramento della qualità dei dati (1) Per migliorare la qualità dei dati bisogna inserire: Valutazione (Assessment): in questa fase si valuta la qualità dei dati ottenuti. E necessario valutare le dimensioni legate ai valori dei dati: consistenza, accuratezza, currency, e completezza. Se i dati sono di qualità accettabile sono memorizzati, altrimenti attività correttive sono intraprese. Analisi: in questa fase vengono individuate le ragioni della bassa qualità dei dati riscontrata nella fase di valutazione Correzione: In molti casi, i dati insoddisfacenti possono essere corretti o migliorati Scarto: se un dato giudicato di bassa qualità non può essere corretto, dovrebbe essere scartato 11

12 Ciclo di vita modificato per il miglioramento della qualità dei dati (2) Definizione view Ottenimento valori Valutazione Implementazione Memorizzazione Scarto Analisi Ciclo di acquisizione Definizione sottoinsieme Recupero Valutazione Manipolazione presentazione Valutazione Uso Valutazione Analisi Ciclo di utilizzo Ottenere nuovi valori Cancella Ridefinire le viste Un metodo standard per l analisi l delle dimensioni di qualità: : IP-MAP Per fare l analisi delle dimensioni di qualità è necessario adottare meccanismi di data tracking Un Information Product MAP è un modello grafico progettato per aiutare a comprendere, valutare e descrivere il modo in cui un informazione viene assemblata Il prodotto informativo viene generato da due elementi principali: Raw data items: dati elementari utilizzati per creare l informazione finale Component data items: informazioni intermedie necessarie per produrre il prodotto finale 12

13 Costruzione e utilizzo di IPMAP La costruzione e l utilizzo di IP-MAP si compone di cinque fasi: Catalogare i prodotti informativi Si definisce la natura del prodotto, chi lo utilizza, quando si utilizza, qual è il processo che permette di creare il prodotto ecc. Identificazione dei prodotti informativi critici: prodotti che non possono riportare errori in quanto si causerebbero danni agli utenti del processo Definizione dei requisiti di qualità Costruzione IP-MAP Definizione e miglioramento della qualità del prodotto informativo Costruzione di IP-MAP: blocchi principali Nome blocco Source (raw input block) Customer (output) block Data Quality block Processing block Data Storage block Decision block Business Boundary block Information System Boundary block Simbolo Significato Blocco usato per rappresentare la sorgente di ogni raw data che può essere utilizzata per produrre il prodotto informativo Blocco usato per rappresentare gli utenti del prodotto informativo. L utente specifica i dati che costituiscono il prodotto finito Blocco utilizzato per rappresentare i punti in cui è necessario eseguire dei controlli sulla qualità dei dati Blocco utilizzato per rappresentare ogni manipolazione, calcolo o azione che interessa qualche raw data Blocco usato per rappresentare la memorizzazione di dati in file o basi di dati Blocco utilizzato per rappresentare delle condizioni che devono essere valutate prima di attivare specifiche procedure Blocco utilizzato per specificare il passaggio delle informaizoni attraverso diversi dipartimenti o organizzazioni Blocco utilizzato per specificare le trasformazioni che i dati devono subire passando da un sistema informativo a un altro 13

14 Account data Account activities Account management Customer data Credit Card Extraction Extraction Extraction Extraction Extraction CD 3 CD 4 CD 2 CD 1 CD 5 Integration CD 6 Transformation CD 7 Global account RD 11 View and print balances Account activities Send a request Send a request Query definition Extraction Aggregation CD 8 CD 9 Open a saving account Move money Insert data customer Insert transfer request Elaborate from Home banking application Pay bills Insert transfer request Format data Report definition CD 10 Choice service IP 1 RD 1 Customer accesses Home banking service Customer view accounts activities Misurazione delle dimensioni di qualità 14

15 Processo di misurazione Il processo di misurazione risulta complesso dal momento che non ci sono algoritmi precisi per il calcolo delle singole dimensioni Algoritmi consolidati esistono per le dimensioni: Completezza Accuratezza Currency (e timeliness) Completezza Considerando un attributo in una tupla t e il suo valore v: se v= null completezza (v)=0 se v <> null completezza (v)=1 Completezza della tupla può essere calcolate come: Completezza( t) = i= 1 completezza( v ) Dove N è il numero di attributi che compongono lo schema N N i 15

16 Accuratezza L accuratezza si misura considerando una sorgente di benchmark e paragonando i valori contenuti all interno del database v i con valori di benchmark considerati corretti. se v = v ' accuratezza( v ) = 1 L accuratezza totale risulta: i i i se v v ' accuratezza( v ) = 0 Accuratezza( t) = i N i= 1 accuratezza( v ) N i i i Currency e timeliness La currency è comunemente associata alla data dell ultimo aggiornamento. La currency viene utilizzata nel calcolo della timeliness La timeliness è la dimensione che rivela il grado di aggiornamento dei dati : currency( v ) i Timeliness( vi ) = max 1 ;0 volatility( vi ) 16

17 Altre misurazioni utili per la valutazione della qualità Oltre alla valutazione diretta delle dimensioni di qualità dei dati attraverso: La valutazione dei valori dei dati e dei tipi La loro vicinanza a valori di riferimento La verifica di assenza di duplicati La verifica di correttezza secondo le regole di integrità referenziale è importante anche analizzare i dati all interno del processo, in particolare: Le caratteristiche dei dati: si verifica che i valori dei dati siano conformi a regole di funzionamento dello specifico processo Analisi dei protocolli di sistema (es. numero di record non aggiornati) Il volume dei dati trattati: le analisi mirano a identificare anomalie nell utilizzo dei dati o periodicità Plausibilità (es. distribuzione dei dati) Verifica dei dati con altri sistemi e sorgenti Inoltre bisogna considerare: La valutazione fatta dagli utenti utilizzatori dei dati e dai clienti dell organizzazione misurabile ad esempio attraverso le lamentele o diversi riscontri Valutazioni fatte manualmente attraverso procedure di valutazione standard e tecniche varie Caratteristiche dei dati (Esempio) Credit authorisation Payout before authorisation Authorisation expired Credit Payout 17

18 Analisi del volume dei dati (Numero dei record)? Miglioramento della qualità dei dati 18

19 Strategie per il miglioramento della qualità dei dati Ci sono tre approcci che permettono di migliorare la qualità dei dati del proprio sistema: Ispezione e correzione: i dati sono controllati e confrontati con standard di qualità, gli elementi che non sono ritenuti idonei vengono scartati o corretti fino a quando non passano il controllo Miglioramento e controllo dei processi: l obiettivo è identificare e eliminare le cause di errori Progettazione dei processi: nella fase di progettazione si tiene conto della qualità Ispezione e correzione Laissez-faire: i clienti trovano gli errori e l impresa cerca di correggerli Confronto dei valori con le controparti del mondo reale: tecnica molto costosa e lunga. Non aiuta a prevenire gli errori futuri Database bashing: confronta i record fra due o più database. Ha tre svantaggi principali: L assunzione che i dati che coincidono siano uguali non è sempre corretta I dati usati come termine di confronto potrebbero essere di per sé sbagliati Non previene gli errori futuri Data edits: sono procedure automatiche che verificano che i valori dei dati e/o la loro rappresentazione soddisfino predeterminati vincoli. Questi vincoli sono a volte chiamati business rules 19

20 Miglioramento e controllo dei processi Diverse tecniche di gestione dei processi possono essere applicate alla catena di creazione dell informazione. Metodi che attraverso l uso di edits e data tracking effettuano le misurazioni delle performance dei processi Applicati alla catena dell'informazione gli edit possono visualizzare certi tipi di errore prima ancora che siano riportati nel database Per migliorare il processo, viene gestito un log dei fallimenti, che può essere studiato per determinare i pattern di errore e eliminare le cause. Progettazione dei processi Progettazione dei processi consiste nel fare processi che siano a prova di errore Vengono direttamente inseriti nel processo degli strumenti di misurazione che consentono di controllare e migliorare il processo dall interno del processo stesso. Utilizzo dell IT per minimizzare le attività di interazione diretta tra l utente e il dato per quelle operazioni considerate più a rischio (es. data entry, cambio di formato, ecc.) 20

21 Riepilogo dei principali metodi per il miglioramento di DQ Laissez-faire Metodo Confronto dei valori con le controparti del mondo reale Database bashing, one time Database bashing, ongoing Cleaning, usando data edits, one time Cleaning, usando data edits, ongoing Miglioramento e controllo dei processi Miglioramento Breve Termine Basso Alto Medio Medio Medio Medio Medio Lungo termine Basso Basso Basso Medio Basso Medio Alto Progettazione di processi a Medio Alto prova di errore Costi totali Breve Termine Alto Alto Medio Medio Medio Medio Medio Medio Lungo termine Alto Alto Alto Molto Alto Alto Alto Basso Molto Alto Dati non importanti Per valutare livelli di qualità correnti Quando un secondo DB è disponibile Mai Su dati che non vengono aggiornati spesso Mai Quando è appropriato Su dati che vengono creati o aggiornati frequentemente Ogni volta che un nuovo processo viene progettato o re-ingegnerizzato Metodi per il miglioramento della qualità dei dati alta Frequenza di cambiamento Proactive Data Quality Management bassa Laissez faire Data Cleansing bassa alta Rilevanza dei dati Le misure proattive sono sempre quelle da preferire [de Fries, Seidl und Windheuser 1999] 21

22 Data Quality Management Quality Philosophy Quality Culture Data Quality Policy Data Quality Strategy Strategic Management Data Quality Planning Data Quality Control Definition and Specification of quality objectives Feedback and control Operative Management Information Management [Helfert, Herrmann 2003] Data Quality Management è più che Data Cleaning! 6% 59% 35% Data Cleansing DQM Both (Cleansing & DQM) [Helfert 2002] Definire obiettivi di qualità Analizzare l esistente qualità dei dati Identificare le cause e gli effetti della scarsa qualità dei dati Analizzare il costo e i benefici della qualità dei dati Sviluppare misure per migliorare la qualità dei dati 22

23 External Transaction oriented s(call Center, WWW-Portal, CRM) Operative Data Sources Non relational other DB 2 Net ORACLE Operational Data Store Transformation Component Data Warehouse Data Base Data Warehouse Data Base Data Marts End-User-Tools BERI CH T ' EI NNAH ME N U ND A USG ABEN ' b i s Es s e n 40, 34% Son s t i g e 3 3, 08 % Fr ei ze i t 10, 63% St ud i um 15, 95% Il concetto di DQM proattivo Definizione dei requisiti di qualità dei dati Misurazione del livello corrente di qualià Requisiti Processo organizzativo Valori di qualità Struttura organizzativa (ruoli e responsabilità) Extraction, Transformation, Loading Tecniche e strumenti Cambio di sistema Standard e regole Efficacia Efficienza Identificazione e passi Implementativi per migliorare Continuamente la qualità dei dati Analisi Cause Mancanza di dati Analisi Effetti e implicazioni Diversi approcci per diversi tipi di sistemi informativi Le problematiche relative alla qualità dei dati sono diverse a seconda del sistema informativo in cui si opera: Centralizzati Distribuiti Sistemi informativi direzionali di tipo data warehouse 23

24 SI centralizzati Ipotizziamo che in questi sistemi si operi con un unico database. Per selezionare il miglior metodo di miglioramento dei dati dobbiamo valutare il turnover dei parametri: frequenza delle creazione e aggiornamento dei dati Se il turnover dei parametri è alto metodo di miglioramento e controllo dei processi Se il turnover dei parametri è basso metodo di ispezione e correzione Se il turnover dei parametri è medio o misto Prima si applicano metodi di miglioramento e controllo dei processi e poi metodi di ispezione e correzione In tutti i casi ogni volta che si progetta un nuovo processo, si inseriscono nello stesso procedure per il controllo della qualità dei dati SI distribuiti In questi sistemi i dati da migliorare sono contenuti in più database. Si possono presentare tre casi: I dati contenuti nei database non si sovrappongono per ogni database sono valide le considerazioni fatte per il SI centralizzato I dati sono contenuti sia nel database A che B ma il database B utilizza il database A come sorgente per il database A sono valide le considerazioni fatte per i SI centralizzati e B eredita le correzioni I dati sono contenuti in più database ma manipolati da processi diversi. Più alternative: Tenere i database divisi e usare periodicamente una tecnica di database bashing (sconsigliato) Rivedere la composizione dei processi e controllare se è proprio necessario mantenere la gestione dei database separata Cercare di instaurare fra i due database un rapporto di master/slave 24

25 Sistemi informativi direzionali di tipo data warehouse Metà dei costi associati all implementazione di un data warehouse sono imputabili alla scarsa qualità dei dati I sistemi con data warehouse aumentano la ridondanza dei dati, un generico processo per sviluppare un piano operazionale mirato al miglioramento dei dati si compone dei seguenti passi: Analisi della strategia di business, dei problemi noti, dei tassi di errore e dei costi Selezione dei dati da cui si riescono a definire i requisiti di qualità e determinazione delle basi di dati e processi ad essi associati Selezionare i database principali (master databases) Eliminazione dei processi ridondanti Applicare il metodo di miglioramento opportuno (caso SI centralizzato) In dettaglio: problemi di qualità dei dati nei data warehouse 25

26 BERI CH T ' EINNAH M EN UND AUS G ABEN' b i s S o ns t i g e 3 3, 08 % Fr e i z e i t 1 0, 6 3 % S t ud i um 15, 9 5% Ess e n 40, 34 % BERI CH T ' EI NNAH M EN UND AUSG ABEN' b i s So n s t i ge 3 3, 0 8% F r ei z ei t 10, 63 % S t ud i um 1 5, 9 5 % Es s e n 4 0, 3 4% La scarsa qualità dei dati è percepita attraverso inconsistenze... Qual è il vero valore dell informazione per i clienti? Osservazione diretta Rappresentazione del Sistema Informativo Mondo reale Operative Data Transformation Data Warehouse Sources Component Data Base External Net ORACLE Data Warehouse DB 2 Data Base other Non relational Extraction, Transformation, Loading Data Marts End-User-Tools Interpretazione data user s Percezione data user s dei real real world dati da world parte degli perception perception utenti Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Inconsistenze percepite Scarsa qualità dei dati percepita [ see also Wand, Wang 1996] Problemi chiave di qualità dei dati Estrazione e interpretazione dati operazionali Integrazione di diversi sistemi operazionali Applicazione / (Interpretazione dati lato utente) Trasferimento dati Acquisizione dati Operative Data Sources Transformation Component Data Warehouse Data Base Data Marts End-User-Tools External Non relational Net ORACLE DB 2 other Extraction, Transformation, Loading Data Warehouse Data Base Transaction oriented s(call Center, WWW-Portal, CRM) Operational Data Store 26

27 Interpretazione dati (Esempio)... Name Date of Birth Product Price Day Keane 09/03/70 AB 14.3 SFR O Conner AC 27.2 EUR O Conner 14/07/65 BB Schmidt 1/1/11 AC 26.2 EUR Keane 09/03/70 BA??? Duplicati/ridondanze Uso di valori di default... C# Name Date of Birth Keane 09/03/70... O Conne /07/65... r... 3 Schmidt Null Codice non esplivativo C# P-Cat. 1 A 2 A 2 B Problemi di formato Incompletezza Referenza temporale impliita P# Cur. Price Date... 2 SFR /11/ EUR /11/ EUR /11/ A 1 B 3 SFR /11/ Null Null 14/11/00... Approcci per l estrazione l e trasferimento dei dati Frequentemente risolti in cooperazione con i dipartimenti operativi Spesso gli errori vengono automaticamente risolti nel processo di trasferimento dati Feedback dei problemi di qualità dei dati Data Warehouse Semantic Syntax Sviluppo di una logica di trasformazione per il trasferimento dati (mapping) Fornitura dei dati secondo gli standard concordati Conoscenza implicita Op. System Semantic Syntax Scarsa qualità dei dati (ma tollerata a livello operativo) Sviluppo di definizioni esatte (descrizione dati, origine dei dati, formato dei dati) 27

28 Problemi di integrazione (Esempio) Tabelle con dati ridondanti (indirizzo) in diversi sistemi operazionali... Name Street ZIP City Phone Fax O Conner Ballymon Rd. 5 9 Dublin Ahern Griffen Av. 24 Galway Correct address data Office information... Name Street ZIP City Phone Fax O Conner Finglass Rd Dublin Ahern Galway Private information I dati sono raccolti per diversi scopi La standardizzazione può disturbare i processi organizzativi a livello operativo I problemi di integrazione sono... Molto complessi e costosi in termine di tempo, dal momento che diverse unità organizzative sono coinvolte (lunghe procedure decisionali, analisi complessa dei problemi, fattori politici) Difficili da analizzare e quindi implicano un alto rischio di progetto Sono causati maggiormente da problemi organizzativi piuttosto che tecnici, e.g. Mancanza di attenzione per la qualità dei dati e dell informazione Mancanza di standard / procedure per lo sviluppo di applicazioni Sviluppo indipendente dei concetti organizzativi e di sistema Addestramento del personale insufficiente Sicurezza delle informazioni 28

29 Processo di trasferimento e consistenza temporale Real world Data- Warehouse- Database Operational Systems [Helfert 2002] Un caso di studio: qualità dei dati in un istituto finanziario 29

30 Il caso di studio Obiettivi del progetto: Analizzare la situazione corrente di qualità dei dati Analizzare i requisiti di qualità dei dati degli utenti finali Sviluppare un sistema concettuale di qualità dei dati per la banca Definizione di una serie di regole per gestire la qualità dei dati per specifiche aree applicative Incentivare del trattamento della qualità dei dati e guadagnare l attenzione da parte dell intera direzione aziendale Sviluppo di una strategia orientata alla qualità dei dati [Helfert 2002] 30

31 l B ERI CH T ' EI NNAH M E N UND AUS G ABE N' b i s Son s t i g e 33, 08 % Fr ei z ei t 1 0, 63% St u di um 1 5, 9 5% E s s en 4 0, 34% Esempi di regole operative per il controllo della qualità >conta tutti i conti correnti che sono stati chiusi ma a cui Non è associata nessuna data di chiusura select count(account_id) from pkw_accounts where substr(appl_flags_1,8,1) = '1' and account_closing_date is null >GESTIONE DI ECCEZIONE: tra marzo 2001 e Dicembre 2001 la tabella cr_col_cat >è aumentata da a righe per mese. >EXCEPTION: >In gennaio 2002 ci si aspetta un aumento solo di un terzo delle righe del mese precedente select count (*) from cr_col_cat a where a.date_per = to_date(' ','dd.mm.yyyy') Data Cleansing (passi principali) Documentazione (documentare i risultati del passo del processo di dati cleansing in metadati) Householding (combinare record individuali che sono attribuiti allo stesso indirizzo) Trasformazione dei dati (es.1 per uomini, e 2 per donne diventano M e F) Record matching (determinare se due record si riferiscono allo stesso soggetto) Correzione e verifica dei dati (confronta i dati con liste certificate, es. Codici postali, liste di prodotti) Standardizzazione (adottare formati standard per alcuni valori dei dati) Parsing (scomporre il record in unità atomiche) Datenquellen Data Warehouse Datenbank Data Marts Transformationskomponente End-User- Werkzeuge [Neely 1998] External Net ORACL E DB 2 other Non relationa Transaction oriented s(call Center, Operational Data Store WWW-Portal, CRM) Extraction, Transformation, Loading Data Warehouse Data Base 31

32 Esempi di specifiche per la qualità (regole) Criteria Approach Example Domain and attribute Value corresponds specified Data type / format Value is within range of values DateOfBirth IS Date <= DateOfBirth <= Today Obligatory fields (missing values) DateOfBirth NOT NULL Plausibility Record and relation Referential integrity Relations between records Key values are unique Foreign key relations (Product#= 4x AND CustomerCode = 1x) credit_balance >= Account# NOT NULL AND UNIQUE Account.Customer# IN Customer.Customer# Sum of credit balances from system A is equivalent to former balance + account movements Other integrity constrains Relations between different attributes Average balance is related to Number of Customers (e.g. Average Credit_Balance is within a plausibility interval dependent on Number of Customers) Data volumes (Number of records) Number of account movements are within a plausibility interval (e.g <= (COUNT (*) FROM Account WHERE Transaktion_Date = Today) <= ) Test for execution of scheduled Tecnologie Timeliness per i Sistemi Informativi, Transfer Processes Transfer process T is at scheduled time t completed (e.g. scheduled_time = start_time AND Status = completed ) Esempio di analisi dei dati Città City Data di of nascita Birth St. Gallen

33 Modifiche nei processi: ciclo di pianificazione e controllo della qualità dei dati [Helfert, Herrmann 2003] Modifiche nei processi: Pianificazione della qualità dei dati [Helfert, Herrmann 2003] 33

34 Modifiche nei processi: controllo della qualità dei dati [Helfert, Herrmann 2003] database Valori di tolleranza: > 30 Azione da effettuare in caso di violazione delle regole? Risultati attesi Casi di test e regole SQL-Script Notifica: History log file [Winter, Helfert, Herrmann 2002] 34

35 Utilizzo effettivo del sistema implementato: indagine dei clienti dell istituto finanziario Indagine dei clienti Gestione del rischio Reputazione Legale Operazionale Si investiga per la riduzione del rischio Frequenza e Qualità dell indagine Sui clienti Lotta contro il terrorismo Implementare misure per contrastare il finanziamento del terrorismo Preliminare identificazione dei terroristi fra I clienti Mezzi per contrastare il riciclo di denaro Monitoraggio delle transazioni Indagini Si indagano clienti che effettuano transazioni sospette 35

36 Problema: : un nome non è un identificatore unico Esempio: Hans Müller 1190 matches Hans Müller, matches Hans Müller, Zurigo 58 matches Hans Müller, Zurigo, match Problema: affrontare diversi problemi di qualità dei dati Esterne Esempio: In molti nomi stranieri si ha difficoltà nel capire quale sia il cognome Definizione della data di nascita Interne Esempio: Crescita incrementale del sistema Date di nascita inserite in modo automatico (es ) Typos (es. Smith -> Simth) Inserimento di campi che consentono l inserimento di testo libero nel sistema 36

37 Problema: : Un nome può essere scritto in diversi modi Individuo #1 - Adnan El Shukrijumah Name Component Variant Form Relative Frequency Interpretazione dei nomi dipende dal contesto sociale e culturale ADNAN ADNAN COMMON ADNANE COMMON ALADNAN LESS COMMON EL SHUKRI SHUKRI COMMON SHOUKRY COMMON SHOKRY COMMON SHOKRI LESS COMMON CHOUKRI LESS COMMON SHUKRY LESS COMMON SHOUKRI LESS COMMON CHUKRI LESS COMMON ALSHUKRI LESS COMMON CHOUKRY LESS COMMON CHOQRI LESS COMMON JUMAH JUMA COMMON GOMAA COMMON JUMAH COMMON JOMAA COMMON ALJUMAH COMMON JUMAA COMMON ALJUMA COMMON ALJUMAAH COMMON JOUMAA LESS COMMON JOMAH LESS COMMON GOMA LESS COMMON ALJOMAH LESS COMMON GOMMA LESS COMMON JUMAAH LESS COMMON ALJOMAAH LESS COMMON Example courtesy of Tobi Moriarty / / Problema: controllo dei dati inseriti World-Check Updates per Day (October January 2004) Updates 1500 Average: 240 Updates / Inserts per Day Dates I controlli iniziali non bastano, i dati possono essere soggetti a modifiche, ci vuole monitoraggio!

38 Come è stato modificato il processo. Investigations & Inquiries Inquirer E stato adottato un processo breve e efficiente Una sola interfaccia al sistema Utilizzo del data warehouse descritto precedentemente Evoluzione del processo di indagine < telefono - FAX telefono - FAX 40+ standard di interrogazione Consultazione parallela dello stesso sistema Coinvolgimento di terze parti solo se necessario ma si possono consultare da un unica postazione più di 16 basi di dati differenti Tutti i dati necessari accessibili Da un unico sistema 38

39 Il nuovo processo: l applicazione trova i nomi scritti in modo errato Visualizzazione dei dettagli dei clienti 39

40 L applicazione per la ricerca di un azienda Visualizzazione dei dettagli delle aziende 40

41 L applicazione che consente di trovare i possibili clienti sospetti oltre all applicazione applicazione Migliorare l interfaccia di inserimento dati nello strumento attraverso cui si inseriscono i dati della clientela (evitare campi memo, eseguire controlli preliminari ecc.) Ridurre il numero dei campi per la ricerca dei nomi (es. meta-database) Usabilità: pensare prima a falsi positivi e poi a confronti reali Se utile, aggiungere informazioni provenienti da terze parti nel sistema, per supportare il processo decisionale Bilanciare l utilizzo dei tre ingredienti: dati, utente e algoritmi 41

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

TEORIA sulle BASI DI DATI

TEORIA sulle BASI DI DATI TEORIA sulle BASI DI DATI A cura del Prof. Enea Ferri Cos è un DATA BASE E un insieme di archivi legati tra loro da relazioni. Vengono memorizzati su memorie di massa come un unico insieme, e possono essere

Dettagli

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli

DATABASE. Progettare una base di dati. Database fisico e database logico

DATABASE. Progettare una base di dati. Database fisico e database logico DATABASE Progettare una base di dati Database fisico e database logico Un DB è una collezione di tabelle, le cui proprietà sono specificate dai metadati Attraverso le operazioni sulle tabelle è possibile

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Le Basi di dati: generalità. Unità di Apprendimento A1 1

Le Basi di dati: generalità. Unità di Apprendimento A1 1 Le Basi di dati: generalità Unità di Apprendimento A1 1 1 Cosa è una base di dati In ogni modello di organizzazione della vita dell uomo vengono trattate informazioni Una volta individuate e raccolte devono

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Informatica B. Contenuti. Introduzione alle Basi di Dati e ai DBMS. Introduzione a dati e basi dati DBMS Modello dei dati

Informatica B. Contenuti. Introduzione alle Basi di Dati e ai DBMS. Introduzione a dati e basi dati DBMS Modello dei dati Informatica B Introduzione alle Basi di Dati e ai DBMS Contenuti Introduzione a dati e basi dati DBMS Modello dei dati Informazioni e dati Dato: elemento semanticamente significativo (data, codice, ecc.),

Dettagli

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati INTRODUZIONE Accesso ai dati tramite DBMS Livelli di astrazione Modello dei dati: schema / istanza / metadati Alcuni modelli dei dati Linguaggi per DBMS Architettura di base di un DBMS cesarini - BDSI

Dettagli

DESIGNAZIONE: Rappresenta una relazione tra due entità di tipo 1 ad M. Esempio tipico è : REPARTO ------- IMPIEGATO

DESIGNAZIONE: Rappresenta una relazione tra due entità di tipo 1 ad M. Esempio tipico è : REPARTO ------- IMPIEGATO DESIGNAZIONE: Rappresenta una relazione tra due entità di tipo 1 ad M. Esempio tipico è : REPARTO ------- IMPIEGATO (designata) (designante) Viene rappresentata inserendo, nella tabella dell entità designante,

Dettagli

LABORATORIO. 2 Lezioni su Basi di Dati Contatti:

LABORATORIO. 2 Lezioni su Basi di Dati Contatti: PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE Gennaro Cordasco e Rosario De Chiara {cordasco,dechiara}@dia.unisa.it Dipartimento di Informatica ed Applicazioni R.M. Capocelli Laboratorio

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Sistemi Informativi Aziendali II

Sistemi Informativi Aziendali II Modulo 2 Sistemi Informativi Aziendali II 1 Corso Sistemi Informativi Aziendali II - Modulo 2 Modulo 2 La gestione delle informazioni strutturate nell impresa: La progettazione di un Data Base; Le informazioni

Dettagli

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità

Dettagli

Organizzazione delle informazioni: Database

Organizzazione delle informazioni: Database Organizzazione delle informazioni: Database Laboratorio Informatico di base A.A. 2013/2014 Dipartimento di Scienze Aziendali e Giuridiche Università della Calabria Dott. Pierluigi Muoio (pierluigi.muoio@unical.it)

Dettagli

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione SQL DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE SQL è più di un semplice linguaggio di interrogazione! Linguaggio di definizione dati (Data-definition language, DDL):! Crea/distrugge/modifica relazioni

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

Basi di Dati e Microsoft Access

Basi di Dati e Microsoft Access Basi di Dati e Microsoft Access Lun: 16-18 e Mer: 14-17 Alessandro Padovani padoale@email.it Database: definizione Un database (DB) è una collezione di informazioni organizzata in gruppi, che consentono

Dettagli

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005. SQL Server 2005 Introduzione all uso di SQL Server e utilizzo delle opzioni Olap SQL Server 2005 SQL Server Management Studio Gestione dei server OLAP e OLTP Gestione Utenti Creazione e gestione DB SQL

Dettagli

I Sistemi Informativi

I Sistemi Informativi I Sistemi Informativi Definizione Un Sistema Informativo è un mezzo per acquisire, organizzare, correlare, elaborare e distribuire le informazioni che riguardano una realtà che si desidera descrivere e

Dettagli

Introduzione al data base

Introduzione al data base Introduzione al data base L Informatica è quella disciplina che si occupa del trattamento automatico dei dati con l ausilio del computer. Trattare i dati significa: raccoglierli, elaborarli e conservarli

Dettagli

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei Introduzione Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei. ESEMPI DI INSIEMI DI DATI DA ORGANIZZARE ED USARE IN MANIERA EFFICIENTE Introduzione Più utenti con

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Vincoli di Integrità Approccio dichiarativo alla loro implementazione

Vincoli di Integrità Approccio dichiarativo alla loro implementazione Vincoli di Integrità Approccio dichiarativo alla loro implementazione Antonella Poggi Dipartimento di informatica e Sistemistica SAPIENZA Università di Roma Progetto di Applicazioni Software Anno accademico

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Dal Data Cleaning alla certificazione di qualità per i dati. PAOLO MISSIER University of Manchester, UK - ricercatore

Dal Data Cleaning alla certificazione di qualità per i dati. PAOLO MISSIER University of Manchester, UK - ricercatore Dal Data Cleaning alla certificazione di qualità per i dati PAOLO MISSIER University of Manchester, UK - ricercatore Una definizione classica di qualità dei dati Qualità di un dato: insieme di metriche

Dettagli

Data Base Relazionali

Data Base Relazionali Data Base Relazionali Modello Relazionale dei dati Basi di Dati Relazionali 1 Progettazione di DB METODOLOGIA DI PROGETTO IN TRE FASI Descrizione formalizzata e completa della realtà di interesse REALTA'

Dettagli

Introduzione alle Basi di Dati

Introduzione alle Basi di Dati 1 Introduzione alle Basi di Dati Massimo Paolucci (paolucci@dist.unige.it) DIST Università di Genova Sistema Azienda 2 Sistema organizzativo è costituito da una serie di risorse e di regole necessarie

Dettagli

Corso di Laboratorio di Basi di Dati

Corso di Laboratorio di Basi di Dati Corso di Laboratorio di Basi di Dati F1I072 - INF/01 a.a 2009/2010 Pierluigi Pierini Technolabs S.p.a. Pierluigi.Pierini@technolabs.it Università degli Studi di L Aquila Dipartimento di Informatica Technolabs

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

INTRODUZIONE. Motivazioni e Obbiettivi

INTRODUZIONE. Motivazioni e Obbiettivi INTRODUZIONE Motivazioni dei sistemi distribuiti Caratteristiche generali Alcuni richiami sui database centralizzati Standardizzazione dei dati (ANSI/SPARC) Funzioni dei DBMS relazionali Problematiche

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Roccatello Ing. Eduard L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Agenda Presentazione docente Definizione calendario Questionario pre corso

Dettagli

Base Dati Introduzione

Base Dati Introduzione Università di Cassino Facoltà di Ingegneria Modulo di Alfabetizzazione Informatica Base Dati Introduzione Si ringrazia l ing. Francesco Colace dell Università di Salerno Gli archivi costituiscono una memoria

Dettagli

Vincoli di Integrità

Vincoli di Integrità Vincoli di Integrità Antonella Poggi Dipartimento di informatica e Sistemistica Sapienza Università di Roma Progetto di Applicazioni Software Anno accademico 2010-2011 Questi lucidi sono stati prodotti

Dettagli

Corso di Informatica

Corso di Informatica Corso di Informatica Modulo T2 A2 Introduzione ai database 1 Prerequisiti Concetto di sistema File system Archivi File e record 2 1 Introduzione Nella gestione di una attività, ad esempio un azienda, la

Dettagli

Corso di Informatica (Basi di Dati)

Corso di Informatica (Basi di Dati) Corso di Informatica (Basi di Dati) Lezione 1 (12 dicembre 2008) Introduzione alle Basi di Dati Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati 1, Prof. Carlo Batini,

Dettagli

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. (Structured Query Language) : Il linguaggio è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. prima versione IBM alla fine degli anni '70 per un prototipo di ricerca (System

Dettagli

Basi di Dati: Corso di laboratorio

Basi di Dati: Corso di laboratorio Basi di Dati: Corso di laboratorio Lezione 2 Raffaella Gentilini 1 / 45 Sommario 1 Il DDL di SQL: Cancellazione ed Aggiornamento di una BD Cancellazione di Schemi, Tabelle, e Domini Aggiornamento di Tabelle

Dettagli

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione

Value Manager. Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager Soluzione integrata per la pianificazione e il controllo di gestione Value Manager è una soluzione completa

Dettagli

Sistemi per la gestione di database: MySQL ( )

Sistemi per la gestione di database: MySQL ( ) Sistemi per la gestione di database: MySQL ( ) Relational Database e Relational Database Management System Un database è una raccolta di dati organizzata in modo da consentire l accesso, il reperimento

Dettagli

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza:

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza: DOMANDE 1) Definire i concetti di schema e istanza di una base di dati, fornendo anche un esempio. Si definisce schema di una base di dati, quella parte della base di dati stessa che resta sostanzialmente

Dettagli

PIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE

PIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE Istituto di Istruzione Secondaria Superiore ETTORE MAJORANA 24068 SERIATE (BG) Via Partigiani 1 -Tel. 035-297612 - Fax 035-301672 e-mail: majorana@ettoremajorana.gov.it - sito internet: www.ettoremajorana.gov.it

Dettagli

Conservazione Sostitutiva. Verso l amministrazione digitale, in tutta sicurezza.

Conservazione Sostitutiva. Verso l amministrazione digitale, in tutta sicurezza. Conservazione Sostitutiva Verso l amministrazione digitale, in tutta sicurezza. Paperless office Recenti ricerche hanno stimato che ogni euro investito nella migrazione di sistemi tradizionali verso tecnologie

Dettagli

MAX, SUM, AVG, COUNT)

MAX, SUM, AVG, COUNT) INTRODUZIONE A SQL Definizione di tabelle e domini Alcuni vincoli di integrità Struttura base SELECT FROM WHERE Funzioni di aggregazione (MIN, MAX, SUM, AVG, COUNT) Query da più tabelle (FROM R1, Rk) Join

Dettagli

Base di dati e sistemi informativi

Base di dati e sistemi informativi Base di dati e sistemi informativi Una base di dati è un insieme organizzato di dati opportunamente strutturato per lo svolgimento di determinate attività La base di dati è un elemento fondamentale per

Dettagli

IL MODELLO RELAZIONALE

IL MODELLO RELAZIONALE IL MODELLO RELAZIONALE E i vincoli per le basi di dati relazionali 2 La storia Introdotto nel 1970 da E. F. Ted Codd http://en.wikipedia.org/wiki/edgar_f._codd (centro ricerche IBM) Codd, E.F. (1970).

Dettagli

Archivi e Basi di Dati

Archivi e Basi di Dati Archivi e Basi di Dati A B C File Programma 1 Programma 2 A B C File modificati Programma 1 DBMS DB Programma 2 Informatica Generale (CdL in E&C), A.A. 2000-2001 55 Problemi nella gestione di archivi separati

Dettagli

La qualità delle informazioni:

La qualità delle informazioni: misurazione e controllo in Enterprise Data Warehouse FABIO BALDUZZI ICTEAM Torino / Direttore Tecnico 0 Dati strutturati INFORMAZIONI DMS Dati non strutturati DATI Contesto Esperienza Enterprise Knowledge

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Ciclo di Vita Evolutivo

Ciclo di Vita Evolutivo Ciclo di Vita Evolutivo Prof.ssa Enrica Gentile a.a. 2011-2012 Modello del ciclo di vita Stabiliti gli obiettivi ed i requisiti Si procede: All analisi del sistema nella sua interezza Alla progettazione

Dettagli

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino Integration Services Project SQL Server 2005 Integration Services Permette di gestire tutti i processi di ETL Basato sui progetti di Business Intelligence di tipo Integration services Project SQL Server

Dettagli

Le Basi di Dati. Le Basi di Dati

Le Basi di Dati. Le Basi di Dati Le Basi di Dati 20/05/02 Prof. Carlo Blundo 1 Le Basi di Dati Le Base di Dati (database) sono un insieme di tabelle di dati strutturate in maniera da favorire la ricerca di informazioni specializzate per

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Il DBMS Oracle. Express Edition. Donatella Gubiani e Angelo Montanari

Il DBMS Oracle. Express Edition. Donatella Gubiani e Angelo Montanari Gubiani & Montanari Il DBMS Oracle 1 Il DBMS Oracle Express Edition Donatella Gubiani e Angelo Montanari Il DBMS Oracle Il DBMS Oracle Oracle 10g Express Edition Il DBMS Oracle (nelle sue versioni più

Dettagli

Object-Relational Mapping

Object-Relational Mapping Object-Relational Mapping Versione Preliminare Antonella Poggi Dipartimento di informatica e Sistemistica Sapienza Università di Roma Progetto di Applicazioni Software Anno accademico 2008-2009 Questi

Dettagli

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing Lezione 3 Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing 27/02/2010 1 Modello multidimensionale Nasce dall esigenza

Dettagli

I livelli di progettazione possono essere così schematizzati: Esistono tre tipi diversi di modelli logici: Modello gerarchico: Esempio SPECIFICHE

I livelli di progettazione possono essere così schematizzati: Esistono tre tipi diversi di modelli logici: Modello gerarchico: Esempio SPECIFICHE I DATABASE o basi di dati possono essere definiti come una collezione di dati gestita dai DBMS. Tali basi di dati devono possedere determinati requisiti, definiti come specifiche, necessarie per il processo

Dettagli

Corso di Amministrazione di Sistema Parte I ITIL 1

Corso di Amministrazione di Sistema Parte I ITIL 1 Corso di Amministrazione di Sistema Parte I ITIL 1 Francesco Clabot Responsabile erogazione servizi tecnici 1 francesco.clabot@netcom-srl.it Fondamenti di ITIL per la Gestione dei Servizi Informatici ITSM

Dettagli

IS Governance. Francesco Clabot Consulenza di processo. francesco.clabot@netcom-srl.it

IS Governance. Francesco Clabot Consulenza di processo. francesco.clabot@netcom-srl.it IS Governance Francesco Clabot Consulenza di processo francesco.clabot@netcom-srl.it 1 Fondamenti di ISO 20000 per la Gestione dei Servizi Informatici - La Norma - 2 Introduzione Che cosa è una norma?

Dettagli

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone BASI DI DATI per la gestione dell informazione Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone Libro di Testo 22 Chianese, Moscato, Picariello e Sansone BASI DI DATI per la Gestione dell

Dettagli

Structured Query Language parte 1

Structured Query Language parte 1 Consorzio per la formazione e la ricerca in Ingegneria dell'informazione Structured Query Language parte 1 Come interrogare una base di dati relazionale ed avere la risposta esatta Docente: Gennaro Pepe

Dettagli

Informatica (Basi di Dati)

Informatica (Basi di Dati) Corso di Laurea in Biotecnologie Informatica (Basi di Dati) Introduzione alle Basi di Dati Anno Accademico 2009/2010 Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati

Dettagli

Sistema di Gestione di Basi di Dati DataBase Management System DBMS

Sistema di Gestione di Basi di Dati DataBase Management System DBMS Base di dati (accezione generica) collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni di una organizzazione (accezione specifica) collezione di dati

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica.

Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica. Progettazione logica Lo schema concettuale risultante dalla progettazione concettuale è l input alla fase di progettazione logica. La progettazione logica è basata su un particolare modello logico dei

Dettagli

Modello relazionale. ing. Alfredo Cozzi 1

Modello relazionale. ing. Alfredo Cozzi 1 Modello relazionale E fondato sul concetto matematico di relazione tra insiemi di oggetti Una relazione su n insiemi A1, A2,..,An è un sottoinsieme di tutte le n-uple a1,a2,,an che si possono costruire

Dettagli

Archivi e database. Lezione n. 7

Archivi e database. Lezione n. 7 Archivi e database Lezione n. 7 Dagli archivi ai database (1) I dati non sempre sono stati considerati dall informatica oggetto separato di studio e di analisi Nei primi tempi i dati erano parte integrante

Dettagli

Sistemi Informativi e Basi di Dati

Sistemi Informativi e Basi di Dati Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli

Dettagli

Prefazione Sistemi informativi e basi di dati Il modello relazionale Il modello ER

Prefazione Sistemi informativi e basi di dati Il modello relazionale Il modello ER Indice Prefazione XI 1 Sistemi informativi e basi di dati 1 1.1 La Gestione dell Informazione................... 1 1.1.1 Sistemi Informativi e Sistemi Informatici......... 1 1.2 Esempi di Sistemi Informativi...................

Dettagli

INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO

INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO Basi di dati: Microsoft Access INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO Database e DBMS Il termine database (banca dati, base di dati) indica un archivio, strutturato in modo tale

Dettagli

Informatica per le discipline umanistiche 2 lezione 10

Informatica per le discipline umanistiche 2 lezione 10 Informatica per le discipline umanistiche 2 lezione 10 Parte III: il computer come strumento per l interazione e la comunicazione Si è parlato di identità Parte III: il computer come strumento per l interazione

Dettagli

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007 Basi di dati Concetti introduttivi Ultima modifica: 26/02/2007 ESEMPIO INSEGNAMENTI Fisica, Analisi, Informatica Aule Docenti Entità Relazioni Interrogazioni St udent i Database 2 Tabella (I) STUDENTE

Dettagli

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL

Basi di dati. Il Linguaggio SQL. K. Donno - Il Linguaggio SQL Basi di dati Il Linguaggio SQL Data Definition Language (DDL) Data Definition Language: insieme di istruzioni utilizzate per modificare la struttura della base di dati Ne fanno parte le istruzioni di inserimento,

Dettagli

Gestione delle tabelle

Gestione delle tabelle Linguaggio SQL: fondamenti Creazione di una tabella Modifica della struttura di una tabella Cancellazione di una tabella Dizionario dei dati Integrità dei dati 2 Creazione di una tabella (1/3) Si utilizza

Dettagli

Impresa di raccolta e riciclaggio di materiali metallici e di rifiuti.

Impresa di raccolta e riciclaggio di materiali metallici e di rifiuti. Impresa di raccolta e riciclaggio di materiali metallici e di rifiuti. Indice Cognome Nome Matr.xxxxxx email Cognome Nome Mat. Yyyyyy email Argomento Pagina 1. Analisi dei requisiti 1 a. Requisiti espressi

Dettagli

Basi di dati. Concetti Introduttivi ESEMPIO. Fisica, Analisi, Informatica. Entità Relazioni Interrogazioni. Database 2

Basi di dati. Concetti Introduttivi ESEMPIO. Fisica, Analisi, Informatica. Entità Relazioni Interrogazioni. Database 2 Basi di dati Concetti Introduttivi ESEMPIO Fisica, Analisi, Informatica Entità Relazioni Interrogazioni Database 2 Tabella (I) STUDENTE Attributi Data di Nascita Indirizzo Matricola Luca Neri 27/10/1980

Dettagli

SOA è solo tecnologia? Consigli utili su come approcciare un progetto SOA. Service Oriented Architecture

SOA è solo tecnologia? Consigli utili su come approcciare un progetto SOA. Service Oriented Architecture SOA è solo tecnologia? Consigli utili su come approcciare un progetto SOA Service Oriented Architecture Ormai tutti, nel mondo dell IT, conoscono i principi di SOA e i benefici che si possono ottenere

Dettagli

Lo Studio di Fattibilità

Lo Studio di Fattibilità Lo Studio di Fattibilità Massimo Mecella Dipartimento di Informatica e Sistemistica Università di Roma La Sapienza Definizione Insieme di informazioni considerate necessarie alla decisione sull investimento

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Data aggregation and risk infrastructure

Data aggregation and risk infrastructure Data aggregation and risk infrastructure Il Contesto di riferimento: Principi applicabili in ambito IT I principi di Data Risk Aggregation indirizzano 4 specifiche aree di controllo: 4 - Revisione, strumenti

Dettagli

SQL Server BI Development Studio

SQL Server BI Development Studio Il Data warehouse SQL Server Business Intelligence Development Studio Analysis Service Sorgenti dati operazionali DB relazionali Fogli excel Data warehouse Staging Area e dati riconciliati Cubi Report

Dettagli

Università di Venezia Corso di Laurea in Informatica. Marco Fusaro KPMG S.p.A.

Università di Venezia Corso di Laurea in Informatica. Marco Fusaro KPMG S.p.A. Università di Venezia Corso di Laurea in Informatica Laboratorio di Informatica Applicata Introduzione all IT Governance Lezione 4 Marco Fusaro KPMG S.p.A. 1 CobiT Obiettivi del CobiT (Control Objectives

Dettagli

Ingegneria del Software Requisiti e Specifiche

Ingegneria del Software Requisiti e Specifiche Ingegneria del Software Requisiti e Specifiche Obiettivi. Affrontare i primi passi della produzione del software: la definizione dei requisiti ed il progetto architetturale che porta alla definizione delle

Dettagli

SMS Strategic Marketing Service

SMS Strategic Marketing Service SMS Strategic Marketing Service Una piattaforma innovativa al servizio delle Banche e delle Assicurazioni Spin-off del Politecnico di Bari Il team Conquist, Ingenium ed il Politecnico di Bari (DIMEG) sono

Dettagli

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati Corso di Access Modulo L2A (Access) 1.1 Concetti di base 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione Un ambiente DBMS è un applicazione che consente

Dettagli

Introduzione a MySQL

Introduzione a MySQL Introduzione a MySQL Cinzia Cappiello Alessandro Raffio Politecnico di Milano Prima di iniziare qualche dettaglio su MySQL MySQL è un sistema di gestione di basi di dati relazionali (RDBMS) composto da

Dettagli

PROGRAMMAZIONE MODULARE. Periodo mensile. Ore previste

PROGRAMMAZIONE MODULARE. Periodo mensile. Ore previste PROGRAMMAZIONE MODULARE Indirizzo: INFORMATICA SIRIO Disciplina: INFORMATICA Classe: QUINTA Ore previste: 16 di cui 66 ore di teoria e 99 ore di laboratorio. N. modulo Titolo Modulo Titolo unità didattiche

Dettagli

Progettazione base dati relazionale

Progettazione base dati relazionale Progettazione base dati relazionale Prof. Luca Bolognini E-Mail:luca.bolognini@aliceposta.it Progettare una base di dati Lo scopo della progettazione è quello di definire lo schema della base di dati e

Dettagli

Requisiti sulla qualità del software secondo lo standard ISO/IEC 25010

Requisiti sulla qualità del software secondo lo standard ISO/IEC 25010 1. Premessa. Requisiti sulla qualità del software secondo lo standard ISO/IEC 25010 Domenico Natale AB Medica Versione 1 Riunione delle Commissione UNINFO Informatica Medica Milano, 30 settembre 2013 La

Dettagli