Modulo Rappresentazione dell Informazione Prof. Carlo Batini

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Modulo Rappresentazione dell Informazione Prof. Carlo Batini"

Transcript

1 Università degli Studi di Milano-Bicocca Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea Magistrale in Informatica Rappresentazione dell Informazione e della Conoscenza Modulo Rappresentazione dell Informazione Prof. Carlo Batini A cura di: Carmine Carella Anno Accademico P a g i n a

2 1 Sommario 1 SOMMARIO INDICE DELLE FIGURE INTRODUZIONE DEFINIZIONI Olson Definizione TDWI Definizione IBM Definizione DataFlux Definizione DATA PROFILING FONDAMENTALE PER IL PROACTIVE DATA QUALITY Reactive vs Proactive Data Quality Elementi per un Proactive Data Quality di Successo RUOLO NEI PROGETTI DATA MANAGEMENT CAMPI DI APPLICAZIONE APPROCCI TRADIZIONALI VS APPROCCI AUTOMATICI OLSON METODOLOGIA METODOLOGIA GENERALE Raccolta dei Metadati Documented Metadata Estrazione dei Metadati Discovered Metadata Analysis Validation Data Profiling Repository Mantenimento del Data Profiling Partecipanti al Processo di Data Profiling METODOLOGIA DI DETTAGLIO Column Property Analysis Definizioni Il Processo per il Profiling Columns Profiling Properties per i Campi Structure Analysis Il Processo di Structure Analysis Rules for Structure Output Structure Analysis: Inaccurate Data Facts Sviluppare un Data Model Simple Data Rules Analysis Definizioni Il Processo per Simple Data Rule Analysis Rules for Single Business Objects Complex Data Rule Analysis Definizioni Il Processo per il Profiling di Complex Data Rules Profiling Complex Data Rules Value Rule Analysis Definizioni Processo di Value Rule Analysis P a g i n a

3 5 ALTRE METODOLOGIE BUSINESS DATA QUALITY LTD (BDQ) METODOLOGIA Metodologia Generale Metodologia di Dettaglio THE DATA WAREHOUSING INSTITUTE (TDWI) METODOLOGIA Metodologia Generale Metodologia di Dettaglio Le 4 Aree del Data Profiling Best Practices per il Data Profiling IBM METODOLOGIA Metodologia Generale Metodologia di Dettaglio DATAFLUX METODOLOGIA Metodologia Generale Metodologia di Dettaglio INFORMATICA (THE DATA INTEGRATION COMPANY) METODOLOGIA Metodologia Generale Metodologia di Dettaglio CONFRONTO TRA LE METODOLOGIE TOOLS PER IL DATA PROFILING RIFERIMENTI PER I TOOLS: LINKS, DOCUMENTAZIONE E PAPERS BIBLIOGRAFIA P a g i n a

4 2 Indice delle Figure Figura 1 - Modi di utilizzo del data profiling Figura 2 - Vantaggi del profiling rispetto agli approcci tradizionali Figura 3 - Confronto approcci tradizionali VS approcci automatici Figura 4 - Approcci per determinare la qualità dei dati Figura 5 - Fasi della Metodologia Generale di Data Profiling Figura 6 - Architettura Generale Data Profiling Figura 7 - Passi della metodologia di dettaglio di data profiling Figura 8 - Tipi di analisi per il data profiling Figura 9 - Definizioni di column property analysis Figura 10 - Processo di profiling columns Figura 11 - Esempio di business object Figura 12 - Processo di structure analysis Figura 13 - Processo per analizzare le simple data rule Figura 14 - Processo per il profiling di complex data rules Figura 15 - Processo di value rule analysis Figura 16 - Processo di comprensione dei dati BDQ Figura 17 - Stakeholders del data profiling Figura 18 - Passi metodologia generale BDQ profiling Figura 19 - Tipi di analisi BDQ Figura 20 - Esempio di Join Testing Figura 21 - Esempio di analisi dei metadati con dfpower Profile della DataFlux Figura 22 - Metodologia DataFlux Figura 23 - Metodologia di dettaglio Informatica P a g i n a

5 3 Introduzione L attività di data quality (DQ) è supportata da molte tecnologie, tra cui data monitoring, data cleansing, data filtering e data profiling. Il data profiling (DP) è la principale tecnologia per la data accuracy. I dati all interno di un organizzazione supportano ogni genere di attività, dal più semplice processo di business alla decisione strategica più importante. Il loro valore è maggiore se essi sono accurati, completi e consistenti. La qualità della risorsa dati deve sempre essere tenuta sotto controllo in quanto ha un reale impatto sui profitti e sull attività aziendale di decision-making. Una recente inchiesta del Data Warehousing Institute ha stabilito che la scarsa qualità dei dati costa agli affari americani circa $600bn l anno dovuti a: investimenti persi in sistemi che non ritornano benefici concreti eccessivo overhead di processi basati su dati che non sono adatti allo scopo (not fit for purpose) decisioni di business sbagliate basate su dati inaccurati e incompleti La necessità di analizzare i dati è stato alla base di ogni efficiente strategia di data management sin dall alba dei moderni sistemi informativi. Il data profiling permette una profonda e ampia analisi in un tempo molto minore rispetto agli approcci tradizionali di analisi dati. 3.1 Definizioni Olson Definizione Il data profiling è definito come l applicazione di tecniche di analisi dei dati a data source esistenti con lo scopo di determinare il contenuto, la struttura e la qualità dei dati. Questa tecnologia è focalizzata su l estrazione di informazioni relative ai dati stessi, anziché di informazioni di business derivabili dai dati. Le informazioni in output sono utili per poter utilizzare i dati in modo corretto ed efficiente al di fuori del contesto delle applicazioni originali TDWI Definizione Il data profiling è il processo di esaminare i dati memorizzati in data source esistenti (ad esempio, un database o un file) e di raccogliere statistiche e informazioni relative ad essi. L utilità di queste statistiche è: scoprire se i dati esistenti possono essere facilmente utilizzati per altri scopi, fornire metriche relative alla qualità dei dati e gli standard, valutare la fattibilità per l'integrazione dei dati in nuove applicazioni, e valutare se i metadati descrivono con precisione i valori attuali presenti nel data source. Il profiling può essere eseguito sia con metodi manuali che con tool semplici o complessi che automatizzano l attività IBM Definizione Il data profiling è il processo analitico con il quale si esamina il contenuto di un database e si raccolgono statistiche e informazioni sui dati per scoprire la struttura, il contenuto e la qualità dei dati. 5 P a g i n a

6 3.1.4 DataFlux Definizione Il data profiling è il primo passo in un processo di DQ che permette di esaminare la struttura, le relazioni e il contenuto di data source esistenti per ottenere una descrizione precisa dello stato dei dati. Determinare lo stato corrente dei dati aiuta a pianificare le corrette azioni per migliorare la qualità delle informazioni aziendali. 3.2 Data Profiling fondamentale per il Proactive Data Quality Per assicurare la qualità dei dati che supportano le iniziative di business, le aziende stanno adottando sempre più processi per analizzare la qualità e mantenerla nel tempo. Un modo per comprendere e risolvere i problemi di DQ è il data profiling Reactive vs Proactive Data Quality Esistono due tipi di approcci con i quali le aziende effettuano DQ: Reactive DQ: questo tipo di approccio è caratterizzato dalla tendenza di reagire ai problemi di DQ dopo che sono stati scoperti. Non si ha una chiara idea di come è definita la qualità a causa delle mancanza di documentazione sulle DQ rules. Inoltre i problemi di DQ non sono sistematicamente registrati. Proactive DQ: questo tipo di approccio è caratterizzato dalla comprensione di cosa vuol dire qualità attraverso la definizione delle specifiche per determinare se un dato è di buona qualità (DQ rules) e come usare tali specifiche per analizzare i dati. Con questo approccio i problemi di DQ sono noti prima che abbiano un impatto disastroso sul business, aumentando così la fiducia nei dati da parte degli utenti e supportando meglio le decisioni di business Elementi per un Proactive Data Quality di Successo Elenchiamo alcune caratteristiche chiave di un buon progetto di proactive DQ: Collaborare con gli esperti di business: la forte collaborazione degli esperti di business in un progetto di DQ prende il nome di data stewardship. I data steward sono gruppi di esperti di business che conoscono il significato dei dati e li utilizzano quotidianamente. Appartengono alle diverse aree di business aziendale come finanza, marketing, ecc. e hanno la responsabilità per i data elements di interesse e forniscono informazioni su i propri dati (metadati) come definizioni (di data elements), derivazioni (come il dato è calcolato), DQ rules (quando è considerato di buona qualità) e il dove si trovano i dati originari (potrebbero essere in più posti). Supporto di esperti IT: il supporto degli esperti IT è necessario in quanto a volte capire i dati e capire come essi sono derivati implica studiare le applicazioni che li utilizzano, che sono mal documentate. Inoltre anche i tool di DP e i metadata repository necessitano del loro supporto Ottenere e utilizzare i DQ metadati: è importante definire i protocolli e i relativi tool di supporto per memorizzare i metadati. I metadati includono molte informazioni come definizioni, derivazioni, DQ rules ma anche i risultati dell analisi e i feedback degli esperti di business. Conoscere anche la storia dei dati è importante, ovvero sapere cosa è stato fatto ai dati durante il loro viaggio (lineage), se è stato manipolato, convertito può aiutare a definire più facilmente le DQ rule. I processi ETL possono combinare i metadati lineage da loro prodotti con i risultati del profiling e offrire molti vantaggi. È un dato di fatto che gli sviluppatori di tool ETL per assicurarsi che il loro codice funzioni, effettuano una forma semplificata di profiling (data inspection) ma i risultati del data inspection 6 P a g i n a

7 sono raramente condivisi o memorizzati formalmente per usi futuri. Una formale attività di data profiling può far risparmiare l attività preliminare di data inspection nei processi ETL. Memorizzare i metadati: tutti metadati, sia quelli relativi alla qualità, prodotti dal profiling sia quelli relativi al lineage dei dati prodotti dai tool ETL devono essere memorizzati in un metadata repository per essere condivisi dagli analisti e dagli altri utenti dei dati. DQ Rules: le data quality rule sono la risposta alla domanda: quando i dati diventano di scarsa qualità, come facciamo a saperlo? Gli utenti che lavorano con i dati quotidianamente e che riconoscono che qualcosa non va in essi, senza saperlo applicano le DQ rule. Alcuni esempi di rules sono: Il campo è obbligatorio e quindi deve per forza esserci un valore (identificatori), Il campo deve avere solo certi valori (campo sesso di una persona), Il valore nel campo deve essere conforme a un certo pattern di numeri e lettere (numero telefono), Il campo deve avere un certo data type e range Ci deve essere una relazione tra uno o più campi di record differenti nella stessa tabella o in tabelle diverse. Le DQ rule possono essere dettate dai data steward e validate sui dati e/o possono essere estratte dai dati utilizzando un tool e poi verificate da esperti di business. Entrambe sono attività tipiche della pratica del data profiling. 7 P a g i n a

8 3.3 Ruolo nei Progetti Data Management Nei progetti di reingegnerizzazione dei sistemi informativi aziendali, utili per renderli più efficienti e aperti all integrazione con altri sistemi, si ha la necessità di muovere le applicazioni su database più moderni o consolidare databases di diverse applicazioni. Tutto questo introduce la gestione di nuove e differenti interfacce e l interazione tra dati di differenti divisioni dell azienda o di sorgenti esterne. Le difficoltà nell eseguire tali progetti non sempre portano ai risultati desiderati, con un rilevante spreco di denaro e tempo. Sebbene ci siamo molte ragioni per questi risultati deludenti, il principale problema è la scarsa comprensione dei dati. Molti dei paper presi come riferimento parlano del data profiling come una tecnologia inserita in un contesto di più ampio respiro, come una importante fase di una metodologia data-driven come può esserlo un progetto di: data quality improvement data integration data warehousing master data management Il data profiling dovrebbe essere il primo passo in ogni progetto data-driven, per analizzare i data source con lo scopo di raccogliere le informazioni necessarie a scoprire i dati, le loro strutture e valutarne la qualità. Non effettuare il data profiling si traduce in probabili complicazioni nei passi successivi dei progetti o addirittura in un fallimento netto. Inoltre solo una completa e regolare analisi dei dati può identificare tutti i possibili problemi prima che essi diventino ingestibili e si rivelino quando ormai risolverli è troppo costoso. Ad esempio un articolo TDWI analizzato cita a sua volta un altro articolo del TDWI del 2002 intitolato data quality and the bottom line, descrive la metodologia di nove passi per assicurare dati di alta qualità. Il data profiling è uno di questi nove passi. I primi tre si focalizzano su tematiche di organizzazione come sviluppo di piani di progetto, pianificazione delle strategie di data quality e costruzione di data quality team. I successivi tre passi si occupano dell analisi di business practice, architetture dati, data sources con tenologie quali data profiling, data validation, data cleansing, data standardization, data matching, ecc. Il passo finale riguarda le decisioni da prendere in base alle informazioni acquisite dai passi precedenti: pulizia dei dati, monitoraggio data quality, ecc. Un progetto di DQ richiede una combinazione di processi, tecnologie ed esperti. I problemi di DQ non possono essere superati con una sola tecnologia. La gestione della data quality è un processo integrato e complesso, per questo esistono dei tool di automazione che assistono ogni fase del processo. Questi tool devono avere un alto grado di integrazione per garantire l obiettivo finale di un processo di data quality. Ad esempio un tool di data profiling deve rendere disponibili i propri metadati ad un tool di data cleansing in modo che possa applicare le regole senza ripetere la raccolta dei metadati per risolvere gli errori velocemente. Mentre è essenziale avere una tecnologia per supportare qualunque iniziativa di DQ, avere un appropriata metodologia per utilizzare la tecnologia è ancora più importante. 8 P a g i n a

9 Risolvere i problemi di qualità nella fasi iniziali di un processo data management Sembra che nel mondo dei dati le buone regole per mitigare i rischi nelle iniziative data-driven siano quasi sempre dimenticate, un lavoro di analisi dati a priori potrebbe durante i progetti evitare cattive sorprese nella conoscenza dei dati, eliminando problemi che devono essere risolti in corso d opera con meno facilità. Ad esempio ci si può trovare di fronte a campi carattere che contengono numeri, chiavi che si riferiscono a record inesistenti, campi che esprimono il sesso di una persona con 5 valori distinti, record di ordini con prezzi negativi, ecc. Una pratica comune denominata da un esperto di data warehousing code, load and esplode, descrive questa cattiva abitudine nel mondo dei dati: in corso d opera una volta scoperte le irregolarità, un pool di esperti applica le nuove regole per correggerle, si riesegue il processo e nuovamente si scoprono altri cattivi dati che necessitano di altre regole. Tutto questo porta ad un ciclo senza fine che aumenta i costi e i tempi dei progetti. Il fenomeno del code, load and explode influenza molti e diversi progetti e la prima causa di tutto questo e la poca comprensione dei dati e la sottovalutazione dei problemi di scarsa qualità che se non risolti in anticipo portano ritardi e fallimenti nei progetti. Lo strumento per l individuazione anticipata dei problemi di qualità è il data profiling che è più efficace se effettuato nelle fasi di requisiti e analisi di qualunque progetto. Infine, le informazioni accurate relative ai dati, ottenute dal processo di data profiling possono anche essere utilizzate per creare una knowledge base ed effetture il reasoning su di essa. Vantaggi del data profiling Alcuni vantaggi nell adottare la tecnologia di data profiling: migliora la pianificazione dei progetti data-driven mitiga il rischio di effettuare cambiamenti nelle fasi finali di un progetto si basa su un processo robusto e iterativo supportato da tool e metodologie la conoscenza in anticipo dei problemi di qualità, permette di scrivere casi di test migliori e risparmiare tempo nella comprensione del motivo per cui i test falliscono fornisce un completo insieme di informazioni valide sui dati (metadati) rileva gli errori nei dati prima che essi vengano integrati con altri (data warehouse) durante la fase di load permette di definire gli obiettivi di business come raggiungibili o non raggiungibili permette un migliore project planning di risorse (umane e di tempo) 9 P a g i n a

10 3.4 Campi di Applicazione Il profiling può essere utilizzato per migliorare l accuratezza a diversi livelli come mostrato in figura 1 Figura 1 - Modi di utilizzo del data profiling Il data profiling può mostrare le carenze dei dati presenti nel data source e consigliare un progetto di miglioramento della qualità per aumentarne l accuratezza. Può essere utilizzato per definire correttamente i processi di dati ETL (Extraction/Trasformation/Load) che muovono i dati su altri sistemi. Il profiling può aiutare nella costruzione corretta di EAI Systems (Enterprise Application Integration) risolvendo i problemi di traduzione e inconsistenza tra i sistemi partecipanti. Inoltre, può essere utilizzato nei progetti di migrazione per definire in modo corretto il sistema di destinazione. Quando questo è predefinito, ad esempio un ERP System (Enterprise Resource Planning), il data profiling è la base per il mapping accurato di attributi, strutture e valori sul nuovo sistema e permette di individuare tutte le differenze che non vengono risolte a livello dei dati e richiedono interventi esterni. Infine, il profiling è utilizzato per correggere l uso dei dati. Molto spesso i dati sono corretti e gli utenti non comprendono il contenuto e il significato e li utilizzano nel modo sbagliato. 10 P a g i n a

11 3.5 Approcci Tradizionali vs Approcci Automatici I metodi tradizionali (tecniche manuali o semi-automatiche) di analisi dati impiegano molto tempo anche su piccoli campioni e non permettono una completa comprensione dei data source. Le tecniche manuali o semi-automatiche non possono confrontare i milioni di attributi e valori. La risposta è una nuova categoria di software chiamata data profiling che offre una comprensione dei dati veloce, accurata e automatica. Inoltre permette ad un piccolo team di persone con capacità tecniche e di business di eseguire compiti complessi per ottenere una profonda comprensione dei dati. Craig Olson Data Management Review, March 2000 Il data profiling migliora l accuratezza dell analisi dati offrendo: automazione di tecniche di analisi tradizionali: riduzione del tempo di analisi del 90% con una comprensione maggiore dei dati capacità di applicare approcci brute force all analisi. Gli analisti non sono limitati nel lavorare solo con campioni di dati. Terabytes di dati possono essere sottoposti a profiling in modo efficiente e completo valutazione delle regole che governano i dati che non possono essere facilmente scoperte con tecniche manuali e ispezione La tecnologia del data profiling migliora le attività che vengono eseguite sui dati riducendo i rischi, i costi e le tempistiche. Figura 2 - Vantaggi del profiling rispetto agli approcci tradizionali Migliorare la qualità dei dati vuol dire ottenere una migliore comprensione dei dati e delle regole che li governano. Senza queste informazioni nessun data management plan può essere sviluppato. Il data profiling fornisce sia il framework e sia la roadmap per migliorare la data quality, per rendere i processi di business più efficienti e migliorare le performance dell azienda stessa. 11 P a g i n a

12 Figura 3 - Confronto approcci tradizionali VS approcci automatici Approcci Tradizionali Nessuna centralizzazione dell informazione Tools diversi applicati ad hoc per svolgere le attività di analisi Aumento overhead data management Aumento dei rischi e del carico di lavoro Approcci Automatici Singolo punto di accesso alle informazioni Tools definiti e integrati Riduzione overhead di data management Miglioramento affidabilità e riduzione dei rischi Limiti degli approcci tradizionali di profiling Esistono diversi approcci manuali per valutare la qualità dei dati, ma rispetto ai tool automatici di profiling hanno dei limiti: Scoprire gli errori troppo tardi: malgrado la crescente importanza di questo tema si tende sempre a identificare problemi di data quality troppo tardi, quando ormai sono evidenti nel nuovo sistema e provocano un perdita di fiducia nei dati da parte degli utenti o addirittura nei casi più estremi il malfunzionamento. Metadati non attendibili: per fornire una descrizione del contenuto dei data source, si utilizzano cataloghi (metadati) associati al sistema. Questi cataloghi sono notoriamente non affidabili: ad esempio gli sviluppatori del sistema potrebbero non aver creato cataloghi per documentare il contenuto e aver lasciato la compagnia e quindi la conoscenza è andata perduta. In generale i cataloghi anche se esistenti raramente sono aggiornati. L introduzione di errori nei sistemi è molto frequente e siccome non influenzano il processo operazionale giorno per giorno si pensa che tutto vada bene. Ma poi vengono a galla in progetti di integrazione in cui si scopre ad esempio che due campi apparentemente identici non combaciano in quanto un campo può al suo interno aver rappresentato più di un fatto, contrariamente alla descrizione presente nella documentazione. Poco accurati: Questi metodi tendono a non essere esaustivi e non rilevano tutti i possibili errori. Un tipico metodo manuale è la creazione di query SQL per analizzare i data source. Con una query SQL vengono analizzati i dati utilizzando i campi più importanti ma non è sufficiente a dare una comprensione completa. Inoltre dipende dalla capacità dell analista di scrivere buone query SQL e di capire bene il sistema per determinare in anticipo cosa cercare. 12 P a g i n a

13 Approcci Automatici di Data Profiling Figura 4 - Approcci per determinare la qualità dei dati I tool automatici di data profiling superano i limiti degli approcci manuali: Permettono una comprensione completa dei dati, l identificazione accurata dei problemi di qualità e minimizzano i rischi nei progetti di integrazione dovuti alla scarsa qualità rispettando il budget e i tempi. Analisi esaustiva. Permettono di analizzare ogni singolo campo di ogni record in ciascuna tabella del data source. Generano report completi e dettagliati di statistiche e diagrammi che permettono la rilevazione dei problemi in modo più immediato. Permettono una buona comprensione della struttura del sistema di destinazione, il range e la distribuzione dei valori in ciascuna campo e le relazioni tra i campi di una tabella o di diverse tabelle. Tecnologia Drill-Down per spostarsi da una vista sommaria dei dati ad una vista dettagliata dei valori che necessitano di attenzione. Accelerano il processo di analisi dei dati. Permettono di analizzare data source di grandi dimensioni e in modo accurato Una compagnia può utilizzare i tool non solo nell analisi a priori per i progetti di integrazione, ma anche per verificare periodicamente la qualità dei database esistenti e avere dei dati affidabili su cui basare il processo decisionale. Smascherano le inconsistenze nei processi di business; Eliminano le figure degli esperti IT come intermediari tra i dati e gli esperti di business, in quanto i tool sono progettati per essere facilmente utilizzabili da utenti che non hanno competenze tecniche. Quindi un esperto di business può in un solo task acquisire i risultati e analizzarli, al contrario di quello che succede con le tecniche manuali in cui un esperto IT genera ed esegue le query SQL e poi consegna i risultati al business analyst per la valutazione. Comunque gli esperti IT non vengono totalmente estromessi, poiché per analisi di molti data source con milioni di record c è bisogno di una squadra di esperti che generi i report identificando le aree di maggiore interesse e velocizzi il lavoro. 13 P a g i n a

14 4 Olson Metodologia 4.1 Metodologia Generale La figura 2 mostra le principali fasi della metodologia generale di data profiling. Figura 5 - Fasi della Metodologia Generale di Data Profiling La prima fase è l identificazione del data source (database, file o altro) che contiene i dati e delle procedure di accesso all informazione. La fase più difficile è quella di raccolta dei metadati e di estrazione dei dati. Sia i metadati sia i dati stessi costituiscono l input del profiling. Come mostra la Figura 6 - Architettura Generale Data Profiling il processo prende in input i metadati raccolti da tutta la documentazione esterna e i metadati ricavati analizzando i dati stessi. In output viene generato un insieme di metadati accurati frutto del confronto tra gli insiemi di metadati in ingresso e vengono rilevati i dati inaccurati attraverso le violazioni che occorrono nei dati rispetto ai metadati accurati calcolati precedentemente. Il data profiling non può trovare tutti i possibili dati inaccurati, ma soltanto le violazioni alle regole identificate. 14 P a g i n a

15 La figura 3, mostra l architettura generale di data profiling dal punto di vista dell input/output. Figura 6 - Architettura Generale Data Profiling Raccolta dei Metadati Documented Metadata Secondo una definizione molto generale, i metadati sono dati che descrivono le caratteristiche dei dati. I metadati rappresentano quella parte delle informazioni sui dati provenienti da fonti esterne quali dizionari dei dati, documentazione di progetti precedenti, interviste con sviluppatori e progettisti e altre sorgenti che mettono in luce il significato dei dati che devono essere analizzati. Chiamiamo questi metadati documented metadata. Tale termine è utilizzato nel seguito per riferirsi a queste informazioni. Tutte queste informazioni sono di solito non perfette (inaccurate e incomplete) e bisognerebbe approcciarsi ad esse con sospetto, in quanto nel tempo la loro correttezza potrebbe essersi deteriorata. I fattori che contribuiscono a questo sono la scarsa documentazione esistente su: i cambiamenti effettuati al sistema, sulla struttura dei dati, su particolari convenzioni per le codifiche e su informazioni di qualità. Se i documented metadata fossero accurati e completi, tutto quello che bisognerebbe fare è confrontare i dati con i metadati e qualunque violazione costituirebbe fatti di inaccuratezza. I documented metadata possono essere reperiti da tutte le forme di documentazione esistenti che siano diverse dai dati stessi: analizzando le interfacce di programmi che forniscono dati al data source, che possono aggiungere informazioni preziose sui dati che vengono persistiti. recuperando qualunque descrizione dei dati disponibile in dizionari, repositories di metadati e altre forme di documentazione. esplorando il codice sorgente di applicazioni che manipolano i dati. Il codice può rivelare molte informazioni sulla codifica, sulla gestione delle regole di business e su altre situazioni che dall esterno non sono ovvie. L estrazione di informazioni dal codice sorgente può essere sia manuale che automatica, con software appositamente dedicati. In entrambe le modalità raramente viene eseguita, per diversi motivi: 15 P a g i n a

16 il codice può essere scarsamente documentato la dimensione del codice sorgente può essere molto grande e l estrazione impiegare molto tempo lo staff tecnico che esegue l estrazione può non avere la conoscenza dei linguaggi di programmazione con cui sono scritti i programmi, ad esempio Cobol cercando regole all interno di processi esterni : alcune data rules possono essere inserite in processi aziendali più che in programmi o database Estrazione dei Metadati Discovered Metadata I dati rappresentano la più utile sorgente di informazione sui dati stessi. Mentre i documented metadata sono spesso poco accurati e poco completi per il fatto che provengono da fonti esterne poco documentate, i dati possono soltanto fornire informazioni accurate e complete che non possono essere trovare in altre sorgenti. Questo è particolarmente vero per le informazioni sulla qualità, che non è mai documentata al di fuori dei dati. L obiettivo di questa fase è estrarre i dati dal data source per analizzarli e produrre i metadati che descrivono le loro caratteristiche. Chiamiamo questi metadati discovered metadata. Tale termine è utilizzato nel seguito per riferirsi a queste informazioni. I discovered metadata possono essere estratti: analizzando i campi dei record nelle relazioni del database. Come questo viene fatto dipende dal tipo di data source, ad esempio in un database relazionale queste informazioni potrebbero essere estratte da un catalogo. estraendo informazioni strutturali disponibili nel DBMS, ad esempio nel caso relazionale, chiavi primarie, chiavi esterne e altri vincoli referenziali. Campionamento L estrazione può interessare tutti i dati presenti nel data source oppure un sottoinsieme. L estrazione di tutti i dati è chiaramente preferibile all estrazione di un sottoinsieme, in quanto viene definita meglio la realtà rappresentata nel data source e soprattutto è garantita la completezza dei discovered metadata. Ma, per molti data source misurati in centinaia di righe, usare tutti i dati rende proibitiva l esecuzione dell analisi, questo aggravato dal fatto che il data profiling di solito non è eseguito con supercomputer. Quando le dimensioni dei data sources sono considerevoli l utilizzo di sottoinsiemi è preferito purchè siano rappresentativi di tutti i dati. Questi sottoinsiemi prendono il nome di campioni di dati, che vengono estratti attraverso tecniche di campionamento studiate nel campo statistico. Il campionamento è un argomento complesso che influenza l accuratezza del processo di profiling. In questo contesto non descriviamo la vasta area del campionamento e delle sue tecniche. Diciamo solo che se non eseguito bene, il campionamento può portare all estrazione di record che rappresentano solo una parte della popolazione dei dati oppure di record che violano le regole strutturali. Il campionamento 16 P a g i n a

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Verifica e Validazione (V & V) Software e difetti. Processo di V & V. Test

Verifica e Validazione (V & V) Software e difetti. Processo di V & V. Test Software e difetti Il software con difetti è un grande problema I difetti nel software sono comuni Come sappiamo che il software ha qualche difetto? Conosciamo tramite qualcosa, che non è il codice, cosa

Dettagli

Sistemi Informativi I Lezioni di Ingegneria del Software

Sistemi Informativi I Lezioni di Ingegneria del Software 4 Codifica, Test e Collaudo. Al termine della fase di progettazione, a volte anche in parallelo, si passa alla fase di codifica e successivamente alla fase di test e collaudo. In questa parte viene approfondita

Dettagli

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File system verso DBSM Vantaggi di un DBMS Modelli dei dati Utenti

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Introduzione ai sistemi di basi di dati

Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Alessandro.bardine@gmail.com alessandro.bardine@iet.unipi.it Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File

Dettagli

Verifica e Validazione del Simulatore

Verifica e Validazione del Simulatore Verifica e del Simulatore I 4 passi principali del processo simulativo Formulare ed analizzare il problema Sviluppare il Modello del Sistema Raccolta e/o Stima dati per caratterizzare l uso del Modello

Dettagli

Le Basi di dati: generalità. Unità di Apprendimento A1 1

Le Basi di dati: generalità. Unità di Apprendimento A1 1 Le Basi di dati: generalità Unità di Apprendimento A1 1 1 Cosa è una base di dati In ogni modello di organizzazione della vita dell uomo vengono trattate informazioni Una volta individuate e raccolte devono

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

TEORIA sulle BASI DI DATI

TEORIA sulle BASI DI DATI TEORIA sulle BASI DI DATI A cura del Prof. Enea Ferri Cos è un DATA BASE E un insieme di archivi legati tra loro da relazioni. Vengono memorizzati su memorie di massa come un unico insieme, e possono essere

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

LABORATORIO di INFORMATICA

LABORATORIO di INFORMATICA Università degli Studi di Cagliari Corso di Laurea Magistrale in Ingegneria per l Ambiente ed il Territorio LABORATORIO di INFORMATICA A.A. 2010/2011 Prof. Giorgio Giacinto INTRODUZIONE AI SISTEMI DI BASI

Dettagli

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati Corso di Access Modulo L2A (Access) 1.1 Concetti di base 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione Un ambiente DBMS è un applicazione che consente

Dettagli

Business white paper. Sette best practice per creare applicazioni che rispondano alle esigenze aziendali

Business white paper. Sette best practice per creare applicazioni che rispondano alle esigenze aziendali Business white paper Sette best practice per creare applicazioni che rispondano alle esigenze aziendali Indice 3 Sommario esecutivo 3 Introduzione 3 Best practice a livello aziendale 5 Best practice a

Dettagli

SAP Assure SAP Integrity Assure Tool

SAP Assure SAP Integrity Assure Tool Enterprise Fraud Application Risk Management Solution SAP Assure SAP Integrity Assure Tool Agenda Introduzione a SAP Assure Tool Suite Focus su Assure Integrity Presentazione di un caso pratico 1 I prodotti

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

Modelli matematici avanzati per l azienda a.a. 2010-2011

Modelli matematici avanzati per l azienda a.a. 2010-2011 Modelli matematici avanzati per l azienda a.a. 2010-2011 Docente: Pasquale L. De Angelis deangelis@uniparthenope.it tel. 081 5474557 http://www.economia.uniparthenope.it/siti_docenti P.L.DeAngelis Modelli

Dettagli

Piano di gestione della qualità

Piano di gestione della qualità Piano di gestione della qualità Pianificazione della qualità Politica ed obiettivi della qualità Riferimento ad un eventuale modello di qualità adottato Controllo della qualità Procedure di controllo.

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

Il software: natura e qualità

Il software: natura e qualità Sommario Il software: natura e qualità Leggere Cap. 2 Ghezzi et al. Natura e peculiarità del software Classificazione delle qualità del software Qualità del prodotto e del processo Qualità interne ed esterne

Dettagli

Introduzione alle Basi di Dati

Introduzione alle Basi di Dati 1 Introduzione alle Basi di Dati Massimo Paolucci (paolucci@dist.unige.it) DIST Università di Genova Sistema Azienda 2 Sistema organizzativo è costituito da una serie di risorse e di regole necessarie

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Controllo qualità. Controllo qualità della confezione Controllo del contenuto netto

Controllo qualità. Controllo qualità della confezione Controllo del contenuto netto Controllo qualità della confezione Controllo del contenuto netto Miliardi di confezioni di ogni tipo vengono riempite ogni giorno in tutto il mondo. Tutti i prodotti preconfezionati per legge devono riportare

Dettagli

SOLUTION BRIEF CA ERwin Modeling. Come gestire la complessità dei dati e aumentare l'agilità del business

SOLUTION BRIEF CA ERwin Modeling. Come gestire la complessità dei dati e aumentare l'agilità del business SOLUTION BRIEF CA ERwin Modeling Come gestire la complessità dei dati e aumentare l'agilità del business CA ERwin Modeling fornisce una visione centralizzata delle definizioni dei dati chiave per consentire

Dettagli

LA TECHNOLOGY TRANSFER PRESENTA MARK WEB ANALYTICS E BUSINESS INTELLIGENCE ESTENDERE LA BI PER SUPPORTARE IL MARKETING ONLINE E LA CUSTOMER ANALYSIS

LA TECHNOLOGY TRANSFER PRESENTA MARK WEB ANALYTICS E BUSINESS INTELLIGENCE ESTENDERE LA BI PER SUPPORTARE IL MARKETING ONLINE E LA CUSTOMER ANALYSIS LA TECHNOLOGY TRANSFER PRESENTA MARK MADSEN SOCIAL MEDIA, WEB ANALYTICS E BUSINESS INTELLIGENCE ESTENDERE LA BI PER SUPPORTARE IL MARKETING ONLINE E LA CUSTOMER ANALYSIS ROMA 12-13 MAGGIO 2011 VISCONTI

Dettagli

Ciclo di Vita Evolutivo

Ciclo di Vita Evolutivo Ciclo di Vita Evolutivo Prof.ssa Enrica Gentile a.a. 2011-2012 Modello del ciclo di vita Stabiliti gli obiettivi ed i requisiti Si procede: All analisi del sistema nella sua interezza Alla progettazione

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Ingegneria dei Requisiti

Ingegneria dei Requisiti Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Ingegneria dei Requisiti E. TINELLI Contenuti I requisiti del software Documento dei requisiti I processi

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

Informatica (Basi di Dati)

Informatica (Basi di Dati) Corso di Laurea in Biotecnologie Informatica (Basi di Dati) Introduzione alle Basi di Dati Anno Accademico 2009/2010 Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Lista delle descrizioni dei Profili

Lista delle descrizioni dei Profili Lista delle descrizioni dei Profili La seguente lista dei Profili Professionali ICT è stata definita dal CEN Workshop on ICT Skills nell'ambito del Comitato Europeo di Standardizzazione. I profili fanno

Dettagli

Progettazione di un db. Basi di Dati II. Large Database. Il ruolo dei Sistemi Informativi in un azienda

Progettazione di un db. Basi di Dati II. Large Database. Il ruolo dei Sistemi Informativi in un azienda Progettazione di un db Basi di Dati II Lezione 3: Applicazioni di design & tuning di database Prof.ssa G. Tortora a.a. 2004/2005 1 Abbiamo già visto in dettaglio gli aspetti teorici di progettazione di

Dettagli

E.T.L. (Extract.Tansform.Load) IBM - ISeries 1/8

E.T.L. (Extract.Tansform.Load) IBM - ISeries 1/8 E.T.L. (Extract.Tansform.Load) IBM - ISeries Quick-EDD/ DR-DRm ETL 1/8 Sommario ETL... 3 I processi ETL (Extraction, Transformation and Loading - estrazione, trasformazione e caricamento)... 3 Cos è l

Dettagli

Sistemi elettronici per la sicurezza dei veicoli: presente e futuro. Il ruolo della norma ISO 26262 per la Sicurezza Funzionale

Sistemi elettronici per la sicurezza dei veicoli: presente e futuro. Il ruolo della norma ISO 26262 per la Sicurezza Funzionale La Sicurezza Funzionale del Software Prof. Riccardo Sisto Ordinario di Sistemi di Elaborazione delle Informazioni Dipartimento di Automatica e Informatica Sicurezza Funzionale del Vari Aspetti Sicurezza

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Corso di Informatica

Corso di Informatica Corso di Informatica Modulo T2 A2 Introduzione ai database 1 Prerequisiti Concetto di sistema File system Archivi File e record 2 1 Introduzione Nella gestione di una attività, ad esempio un azienda, la

Dettagli

Progetto Logos - Documentazione -

Progetto Logos - Documentazione - Progetto Logos - Documentazione - Marco Benvegnù Gianluca Marcante Simone Sanavio Roberto De Franceschi PM) Corso di Basi di Dati Corso di Laurea in Ingegneria Informatica A.A. 2002/2003 Progetto Logos

Dettagli

CONCETTI DI BASE PER LA QUALITA

CONCETTI DI BASE PER LA QUALITA CONCETTI DI BASE PER LA QUALITA Misura: è una funzione m: A -> B che associa ad ogni attributo A di un osservabile nel mondo reale o empirico (dominio) un oggetto formale B nel mondo matematico (range);

Dettagli

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo ORGANIZZAZIONE AZIENDALE 1 Tecnologie dell informazione e controllo 2 Evoluzione dell IT IT, processo decisionale e controllo Sistemi di supporto al processo decisionale IT e coordinamento esterno IT e

Dettagli

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo CAPITOLO 8 Tecnologie dell informazione e controllo Agenda Evoluzione dell IT IT, processo decisionale e controllo Sistemi di supporto al processo decisionale Sistemi di controllo a feedback IT e coordinamento

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

ITI Galilei Salerno Corso Database ed SQL

ITI Galilei Salerno Corso Database ed SQL ITI Galilei Salerno Corso Database ed SQL prof Carmine Napoli Introduzione Database: Si definisce Database un insieme di dati, di solito di notevoli dimensioni, raccolti, memorizzati ed organizzai in modo

Dettagli

Basi di dati. Microsoft Access. Cosa è. Pietro Pala (pala@dsi.unifi.it) Come iniziare. Aprire un database. Creare un database. Creare un database

Basi di dati. Microsoft Access. Cosa è. Pietro Pala (pala@dsi.unifi.it) Come iniziare. Aprire un database. Creare un database. Creare un database Cosa è Basi di dati Pietro Pala (pala@dsi.unifi.it) Microsoft Access Access è un DBMS relazionale in grado di supportare: Specifica grafica dello schema della base dati Specifica grafica delle interrogazioni

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

Lezione V. Aula Multimediale - sabato 29/03/2008

Lezione V. Aula Multimediale - sabato 29/03/2008 Lezione V Aula Multimediale - sabato 29/03/2008 LAB utilizzo di MS Access Definire gli archivi utilizzando le regole di derivazione e descrivere le caratteristiche di ciascun archivio ASSOCIAZIONE (1:1)

Dettagli

Rassegna sui principi e sui sistemi di Data Warehousing

Rassegna sui principi e sui sistemi di Data Warehousing Università degli studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Rassegna sui principi e sui sistemi di Data Warehousing Tesi di laurea di: Emanuela Scionti Relatore: Chiar.mo Prof.Montesi

Dettagli

DATA WAREHOUSING CON JASPERSOFT BI SUITE

DATA WAREHOUSING CON JASPERSOFT BI SUITE UNIVERSITÁ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Ingegneria di Enzo Ferrari Corso di Laurea Magistrale in Ingegneria Informatica (270/04) DATA WAREHOUSING CON JASPERSOFT BI SUITE Relatore

Dettagli

Ciclo di vita dimensionale

Ciclo di vita dimensionale aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema

Dettagli

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1 Database Organizzazione di archivi mediante basi di dati ing. Alfredo Cozzi 1 Il database è una collezione di dati logicamente correlati e condivisi, che ha lo scopo di soddisfare i fabbisogni informativi

Dettagli

Sistemi Informativi e Basi di Dati

Sistemi Informativi e Basi di Dati Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli

Dettagli

13. IL MONDO DELLE BASI DI DATI

13. IL MONDO DELLE BASI DI DATI 13. IL MONDO DELLE BASI DI DATI Definizione: Una base di dati (in inglese database) può essere considerata come una raccolta di dati progettati per essere fruiti in maniera ottimizzata da differenti applicazioni

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

ALLEGATO 4 AL CAPITOLATO TECNICO. Requisiti di qualità specifici della fornitura

ALLEGATO 4 AL CAPITOLATO TECNICO. Requisiti di qualità specifici della fornitura CONSIP S.p.A. ALLEGATO 4 AL CAPITOLATO TECNICO Requisiti di qualità specifici della fornitura Capitolato relativo all affidamento dei servizi di Sviluppo, Manutenzione, Assistenza e Servizi intellettivi

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistema informativo. Prima definizione Un sistema

Dettagli

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico Introduzione alle basi di dati Introduzione alle basi di dati Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS Gestione delle

Dettagli

La qualità delle informazioni:

La qualità delle informazioni: misurazione e controllo in Enterprise Data Warehouse FABIO BALDUZZI ICTEAM Torino / Direttore Tecnico 0 Dati strutturati INFORMAZIONI DMS Dati non strutturati DATI Contesto Esperienza Enterprise Knowledge

Dettagli

LABORATORIO. 2 Lezioni su Basi di Dati Contatti:

LABORATORIO. 2 Lezioni su Basi di Dati Contatti: PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE Gennaro Cordasco e Rosario De Chiara {cordasco,dechiara}@dia.unisa.it Dipartimento di Informatica ed Applicazioni R.M. Capocelli Laboratorio

Dettagli

Panoramica su ITIL V3 ed esempio di implementazione del Service Design

Panoramica su ITIL V3 ed esempio di implementazione del Service Design Master Universitario di II livello in Interoperabilità Per la Pubblica Amministrazione e Le Imprese Panoramica su ITIL V3 ed esempio di implementazione del Service Design Lavoro pratico II Periodo didattico

Dettagli

Software project management. www.vincenzocalabro.it

Software project management. www.vincenzocalabro.it Software project management Software project management Sono le attività necessarie per assicurare che un prodotto software sia sviluppato rispettando le scadenze fissate rispondendo a determinati standard

Dettagli

Data aggregation and risk infrastructure

Data aggregation and risk infrastructure Data aggregation and risk infrastructure Il Contesto di riferimento: Principi applicabili in ambito IT I principi di Data Risk Aggregation indirizzano 4 specifiche aree di controllo: 4 - Revisione, strumenti

Dettagli

Tecnologie innovative per gestire al meglio informazioni XBRL

Tecnologie innovative per gestire al meglio informazioni XBRL Tecnologie innovative per gestire al meglio informazioni XBRL Sergio Mucciarelli IBM Software Group Data Server Leader Italia Roma, 21 gennaio 2008 2006 IBM Corporation Come gestire al meglio tutte le

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati INTRODUZIONE Accesso ai dati tramite DBMS Livelli di astrazione Modello dei dati: schema / istanza / metadati Alcuni modelli dei dati Linguaggi per DBMS Architettura di base di un DBMS cesarini - BDSI

Dettagli

Ciclo di vita del software

Ciclo di vita del software Ciclo di vita del software Nel corso degli anni, nel passaggio dalla visione artigianale alla visione industriale del software, si è compreso che il processo andava formalizzato attraverso: un insieme

Dettagli

Lorenzo Braidi. Database design. Libro_datadesign.indb 1 23-11-2004 10:06:17

Lorenzo Braidi. Database design. Libro_datadesign.indb 1 23-11-2004 10:06:17 Lorenzo Braidi Database design Libro_datadesign.indb 1 23-11-2004 10:06:17 Sommario Introduzione...XI Capitolo 1 Le basi di dati relazionali... 1 Le basi di dati... 1 Un po di storia... 2 I database gerarchici...

Dettagli

Architettura SW Definizione e Notazioni

Architettura SW Definizione e Notazioni Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Stili Architetturali E. TINELLI Architettura SW Definizione e Notazioni Definizione ANSI/IEEE Std Std1471-2000

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

11. Evoluzione del Software

11. Evoluzione del Software 11. Evoluzione del Software Andrea Polini Ingegneria del Software Corso di Laurea in Informatica (Ingegneria del Software) 11. Evoluzione del Software 1 / 21 Evoluzione del Software - generalità Cosa,

Dettagli

Archivi e database. Lezione n. 7

Archivi e database. Lezione n. 7 Archivi e database Lezione n. 7 Dagli archivi ai database (1) I dati non sempre sono stati considerati dall informatica oggetto separato di studio e di analisi Nei primi tempi i dati erano parte integrante

Dettagli

I Valori del Manifesto Agile sono direttamente applicabili a Scrum:!

I Valori del Manifesto Agile sono direttamente applicabili a Scrum:! Scrum descrizione I Principi di Scrum I Valori dal Manifesto Agile Scrum è il framework Agile più noto. E la sorgente di molte delle idee che si trovano oggi nei Principi e nei Valori del Manifesto Agile,

Dettagli

La Document Orientation. Come implementare un interfaccia

La Document Orientation. Come implementare un interfaccia La Document Orientation Come implementare un interfaccia Per eliminare l implementazione di una interfaccia da parte di una classe o documento, occorre tirarla su di esso tenendo premuto il tasto ctrl.

Dettagli

ICOSMOS «THE NEW COST MANAGEMENT FRAMEWORK»

ICOSMOS «THE NEW COST MANAGEMENT FRAMEWORK» ICOSMOS E il nuovo framework dedicato al Cost Management sviluppato da PRICE Systems in partnership con Creasys. La soluzione è costituita da un architettura di soluzioni integrate e da un catalogo servizi

Dettagli

Le Basi di Dati. Le Basi di Dati

Le Basi di Dati. Le Basi di Dati Le Basi di Dati 20/05/02 Prof. Carlo Blundo 1 Le Basi di Dati Le Base di Dati (database) sono un insieme di tabelle di dati strutturate in maniera da favorire la ricerca di informazioni specializzate per

Dettagli

Databases relazionali e architetture dei RDBMS

Databases relazionali e architetture dei RDBMS A01 87 Salvatore Sessa Ferdinando Di Martino Michele Giordano Databases relazionali e architetture dei RDBMS Introduzione ai databases relazionali e all uso di Access Copyright MMVI ARACNE editrice S.r.l.

Dettagli

Processi di Business e Sistemi di Gestione di Workflow: concetti di base. Prof. Giancarlo Fortino g.fortino@unical.it

Processi di Business e Sistemi di Gestione di Workflow: concetti di base. Prof. Giancarlo Fortino g.fortino@unical.it Processi di Business e Sistemi di Gestione di Workflow: concetti di base Prof. Giancarlo Fortino g.fortino@unical.it Introduzione Le aziende devono modificare la loro organizzazione per cogliere le nuove

Dettagli

Architetture per l analisi di dati

Architetture per l analisi di dati Architetture per l analisi di dati Basi di dati: Architetture e linee di evoluzione - Seconda edizione Capitolo 8 Appunti dalle lezioni Motivazioni I sistemi informatici permettono di aumentare la produttività

Dettagli

Sistemi Informativi Multimediali 1 - Introduzione

Sistemi Informativi Multimediali 1 - Introduzione Che cos è un sistema informativo multimediale? Sistemi Informativi li 1 - Introduzione Augusto Celentano Università Ca Foscari di Venezia Un sistema informativo multimediale (MMDBMS) è un framework che

Dettagli

Linee guida per la gestione del rischio nei progetti di sviluppo e manutenzione dei sistemi

Linee guida per la gestione del rischio nei progetti di sviluppo e manutenzione dei sistemi Linee guida per la gestione del rischio nei progetti di sviluppo e manutenzione dei sistemi Quaderno N. 25 Ercole Colonese ercole@colonese.it Roma, 17 dicembre 2007 Argomenti trattati Valutazione del rischio

Dettagli

PRESENTAZIONE SERVIZI P.M.I.

PRESENTAZIONE SERVIZI P.M.I. PRESENTAZIONE SERVIZI P.M.I. Profilo La Società Hermes nasce nel 2010 per portare sul mercato le esperienze maturate da un team di specialisti e ricercatori informatici che hanno operato per anni come

Dettagli

Progettazione dimensionale

Progettazione dimensionale aprile 2012 1 La progettazione dimensionale riguarda la progettazione logica dei dati del data warehouse costituisce la pietra angolare della progettazione dell intero sistema DW/BI è un processo altamente

Dettagli

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione Processi (di sviluppo del) software Fase di Analisi dei Requisiti Un processo software descrive le attività (o task) necessarie allo sviluppo di un prodotto software e come queste attività sono collegate

Dettagli

Data Mining a.a. 2010-2011

Data Mining a.a. 2010-2011 Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00

Dettagli

COME FRODE. la possibilità propri dati. brevissimo. Reply www.reply.eu

COME FRODE. la possibilità propri dati. brevissimo. Reply www.reply.eu FRAUD MANAGEMENT. COME IDENTIFICARE E COMB BATTERE FRODI PRIMA CHE ACCADANO LE Con una visione sia sui processi di business, sia sui sistemi, Reply è pronta ad offrire soluzioni innovative di Fraud Management,

Dettagli

Object-Relational Mapping

Object-Relational Mapping Object-Relational Mapping Versione Preliminare Antonella Poggi Dipartimento di informatica e Sistemistica Sapienza Università di Roma Progetto di Applicazioni Software Anno accademico 2008-2009 Questi

Dettagli

Introduzione. è uguale a 0, spostamento di dati da una parte della memoria del calcolatore ad un altra.

Introduzione. è uguale a 0, spostamento di dati da una parte della memoria del calcolatore ad un altra. Appunti di Calcolatori Elettronici Modello di macchina multilivello Introduzione... 1 Linguaggi, livelli e macchine virtuali... 3 La struttura a livelli delle macchine odierne... 4 Evoluzione delle macchine

Dettagli

ANALISI DI UN CASO DI EVOLUZIONE NELL ADOZIONE DELLA SOLUZIONE PROJECT AND PORTFOLIO MANAGEMENT DI HP.

ANALISI DI UN CASO DI EVOLUZIONE NELL ADOZIONE DELLA SOLUZIONE PROJECT AND PORTFOLIO MANAGEMENT DI HP. INTERVISTA 13 settembre 2012 ANALISI DI UN CASO DI EVOLUZIONE NELL ADOZIONE DELLA SOLUZIONE PROJECT AND PORTFOLIO MANAGEMENT DI HP. Intervista ad Ermanno Pappalardo, Lead Solution Consultant HP Software

Dettagli

Quality gate. Sono eventi programmati regolarmente e condotti seguendo una procedura standard

Quality gate. Sono eventi programmati regolarmente e condotti seguendo una procedura standard Quality gate Nei punti chiave del processo di sviluppo del software, viene integrato un insieme di quality gate per monitorare la qualità del prodotto intermedio prima che quest ultimo possa passare al

Dettagli

Organizzazione delle informazioni: Database

Organizzazione delle informazioni: Database Organizzazione delle informazioni: Database Laboratorio Informatico di base A.A. 2013/2014 Dipartimento di Scienze Aziendali e Giuridiche Università della Calabria Dott. Pierluigi Muoio (pierluigi.muoio@unical.it)

Dettagli

Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica. Ingegneria del Software.

Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica. Ingegneria del Software. Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica Ingegneria del Software La fase di Test Giulio Destri Ing. del Software: Test - 1 Scopo del modulo Definire

Dettagli