Datawarehouse. Stanza 2017 ricevimento giovedì dalle 11 alle 12 e su appuntamento

Documenti analoghi
Sistemi Informativi Avanzati

Sistemi Informativi Avanzati

INFORMATICA PER LE SCIENZE UMANE a.a. 2017/2018

Indice. Prefazione. Capitolo 1 Introduzione al data warehousing 1

INFORMATICA PER LE SCIENZE UMANE a.a. 2016/2017

INFORMATICA PER LE SCIENZE UMANE a.a. 2015/2016

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

Data warehouse Introduzione

Data warehouse Introduzione

Tecnologie delle Basi di Dati M. Prof. Marco Patella

E-Commerce (Winter 2011) Introduction

Corso di Laurea in Informatica Basi di Dati a.a

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse

Basi di Dati Ingegneria Informatica e delle Telecomunicazioni

Syllabus A042 Insegnamenti disciplinari

Data warehouse: introduzione

Il Ciclo di Vita del Data Warehouse

Basi di Dati I a.a Presentazione del corso

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Architetture di Data Warehouse. PDF created with pdffactory trial version

Corso di. Basi di Dati I. 1. Introduzione

Corso di. Basi di Dati I. 1. Introduzione

Tecnologie delle Basi di Dati M. Proff. Marco Patella, Paolo Ciaccia

Sistemi Informativi Aziendali

Presentazione del corso

Insegnare SAP in un dipartimento di informatica. Andrea Maurino

Sistemi Informativi Aziendali

Il modello multidimensionale. Per le slides si ringrazia il Prof. Stefano Rizzi ( e il Dott.

Docente: Laura Po

Facoltà di Ingegneria dell Informazione, Informatica e Statistica

Docente: Prof. Marco Patella Tutor: Stefano Pio Zingaro

Sistemi Operativi Informatica II. Presentazione del corso. a.a Patrizia Scandurra

Corso di Sistemi di Elaborazione Modulo 1 (6 CFU)

Informatica per le Scienze Umane. Introduzione al corso: programma dettagliato

Docente: Prof. Marco Patella Tutor: Lorenzo Rosa

Sistemi Informativi Aziendali

LINGUAGGI E AMBIENTI MULTIMEDIALI

Informatica per le Scienze Umane. Introduzione al corso: programma

Data Warehousing. Esercitazione 2

Tecnologie delle Basi di Dati M. Proff. Marco Patella, Paolo Ciaccia

Basi di Dati. Corso di Laurea in Informatica Corso B A.A. 2015/16. Dr. Claudia d'amato. Dipartimento di Informatica, Università degli Studi Bari

Alberto Ceselli

Sistemi Informativi Avanzati

Basi di Dati II. Introduzione al corso

Analysis Service. Dutto Riccardo IPSI - tel Dutto Riccardo - SQL Server 2008.

REGOLAMENTO DEL PROGETTO DEL CORSO DI BASI DI DATI (a.a )

MASTER UNIVERSITARIO

Laboratorio di Sistemi Informativi Aziendali a.a

Sistemi Operativi (mod. Informatica II)

Basi di dati (nuovo ordinamento)

Basi di dati Basi di dati per bioinformatica

DSS. Decision Support System. 12/11/2008 Fondamenti Informatica 2 - Prof. Gregorio Cosentino 1

PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI

Introduzione alle Basi di Dati

Risorse digitali per la formazione dei docenti

Basi di dati attive. Una base di dati è ATTIVA quando consente la definizione e la gestione di regole di produzione (regole attive o trigger).

Social Networking: technologies and applications INTRODUZIONE AL CORSO

Sistemi Informativi. Ing. Fabrizio Riguzzi

E-Commerce (Winter 2012) Introduction

Università di Bologna Corso di Laurea in Ingegneria Informatica A.A Sistemi Operativi L-A. Obiettivi del Corso. Argomenti trattati

Università di Bologna Corso di Laurea in Ingegneria Informatica A.A Sistemi Operativi L-A

Sistemi Informativi Avanzati Anno Accademico 2013/2014 Prof. Domenico Beneventano. Archi multipli

Lezione 1: Introduzione al Corso Mercoledì 30 Settembre 2009

CORSO DI BASI DI DATI E CONOSCENZA GESTIONE DEI DATI E DELLA CONOSCENZA

Standardizzazione dei processi Istat

Fondamenti di Informatica

Sistemi Informativi Avanzati Anno Accademico 2012/2013 Prof. Domenico Beneventano. Archi multipli

ITI M. FARADAY. Programmazione a. s

Corso di laurea magistrale in Scienze pedagogiche (LM-85)

PROGETTO OPEN LINKED DATA DELL OSSERVATORIO GIOVANI DELLA REGIONE EMILIA ROMAGNA

Ricevimento: dopo la lezione (in aula) o su appuntamento (Sede Scientifica Pal. 1 Primo Piano)

Struttura e Analisi del Bilancio

Disciplina: INFORMATICA

DOCENTE PROF. ALBERTO BELUSSI. Anno accademico 2010/11

Università degli Studi di Bologna Facoltà di Ingegneria. Corso di Applicazioni di Intelligenza Artificiale LS

Prof. Giorgio Poletti

PROGRAMMAZIONE DISCIPLINARE DIPARTIMENTALE DI INFORMATICA

Ricevimento: dopo la lezione (in aula) o su appuntamento (Sede Scientifica Pal. 1 Primo Piano)

Sistemi di Elaborazione dell Informazione

Data Science. Docente. ore per lezioni frontali. Qualifica, sede di afferenza e SSD. Assegnista di ricerca, Università di Bari

Fondamenti di Informatica T-1

Docente: Prof. Marco Patella Tutor: Vincenzo Lomonaco

Fondamenti di Informatica T-1

GESTIONE DELL INFORMAZIONE E DELLE AZIENDE IN RETE

Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale

Dipartimento di INFORMATICA TC - TTRG. Anno Scolastico Piano di Lavoro Disciplinare. INFORMATICA Articolazione: INFORMATICA Classe IV

lezioni per il corso di lezioni per il corso di laurea in informatica lezioni per il corso di laurea in informatica

Tecnologie, strumenti e processi alle informazioni e l estrazione della conoscenza

Introduzione al corso

Algoritmi e Strutture Dati

Fondamenti di Informatica T-1

DIPARTIMENTO DI INFORMATICA. Dipartimento di Informatica sede di Crema

Basi di dati. Docente Prof. Alberto Belussi. Anno accademico 2009/10

Corso di SISTEMI INTELLIGENTI M. Prof. Michela Milano" Anno accademico 2011/2012

Transcript:

Datawarehouse Docenti Prof. Andrea Maurino maurino@disco.unimib.it Stanza 2017 ricevimento giovedì dalle 11 alle 12 e su appuntamento Dott. Marco Comerio comerio@disco.unimib.it Laboratorio MISS (U14-T035) ricevimento su appuntamento 1

Il percorso svolto fino ad ora Multi utente con gestione guasti, diversi modelli Modello dati Numero Utenti Stand alone Affidabile Relazionale Basi di dati 1 Il percorso svolto fino ad ora Multi utente con gestione guasti, diversi modelli Modello dati Numero Utenti Stand alone Affidabile Relazionale Complementi di basi di dati Basi di dati 1 2

Il percorso svolto fino ad ora Multi utente con gestione guasti, diversi modelli Modello dati Complementi di basi di dati Numero Utenti Stand alone Basi di dati 1 Affidabile Relazionale Modelli relazionali NoSQL rdf Complementi di basi di dati Il percorso svolto fino ad ora Alla magistrale Modello dati Complementi di basi di dati Numero Utenti Architetture sw e dati (Magistrale) Basi di dati 1 Complementi di basi di dati Architetture sw e dati (Magistrale) 3

And now something completely different (cit. monty python s) Datawarehouse Big data Il problema: accesso unificato ai dati Integration System Collezzionare informazioni provenienti da sorgenti diversi Offrire una vista integrata e condivisa per fornire strumenti di supporto all utente 8 4

Le soluzioni? Due approcci Integrazione dati (Lazy) Warehouse (Eager)? Source Source 9 Integrazioni dati (cit Architetture dati) Querydriven (lazy, ondemand) Clients Integration System Metadata Wrapper Wrapper... Wrapper Source Source... Source 10 5

Problemi: Esecuzione delle query lente Sorgenti non disponibili o lente Integrazione complessa e difficilmente modificabile Inefficiente e costosa in termini computazionali per query complesse Aumenta il carico di interrogazioni sulle sorgenti Non molto usato in ambiente industriale (per ora) 11 Il datawarehouse L informazione è integrata prima del suo utilizzo Memorizzata in modo da consentire analisi e interrogazioni complesse Clients Data Warehouse Integration System... Metadata Extractor/ Monitor Extractor/ Monitor Extractor/ Monitor Source Source... Source 12 6

I problemi Costruzione La costruzione di un DW può essere molto lunga e richiede il coinvolgimento di molte aree operative Qualità L integrazione dei dati porta a problemi di qualità che deve essere misurata e nel caso migliorata Manutenzione L aggiunta di una nuova sorgente dati o di nuove esigenze di interrogazioni richiedono parziali riprogettazioni del DW I vantaggi Query veloci Anche se i dati possono non essere aggiornati Nessuna interferenza con il carico delle sorgenti dati Interrogazioni complesse L informazione è memorizzata su un warehouse È possibile modificarla, ristrutturarla, migliorarla Può contenere informazioni storicizzate Migliore controllo di sicurezza È la soluzione più adottata nelle Aziende 14 7

Definizione di DW A data warehouse is simply a single, complete, and consistent store of data obtained from a variety of sources and made available to end users in a way they can understand and use it in a business context. -- Barry Devlin, IBM Consultant A DW is a subject-oriented, integrated, time-varying, non-volatile collection of data that is used primarily in organizational decision making. -- W.H. Inmon, Building the Data Warehouse, 1992 Qualità dei dati 8

9

10

11

BIG DATA Una prima definizione informale I Big Data sono come il sesso fra adolescenti Tutti ne parlano Nessuno sa veramente come si faccia Tutti pensano che gli altri lo stanno facendo. E così dicono che anche loro lo stanno facendo 24 12

Una seconda definizione informale 2012 Gartner Big data is high volume, high velocity, and/or high variety information assets ITIS Lab http://www.itis.disco.unimib.it 25 Volume ITIS Lab http://www.itis.disco.uni mib.it 26 13

Varietà Vari formati, tipi Text, numerical, images, audio, video, sequences, time series, social media data, multi-dim arrays, etc Per estrarre conoscenza tutti questi tipi di dati devono essere collegati insiemi 27 Velocità I dati sono spesso generati velocemente e devono essere processati subito Online Data Analytics Esempi Marketing : in base alla posizione corrente,la storia passata di acquisti, gli interessi espliciti inviare l offerta più interessante per il negozio più vicino al cliente Monitoraggio e Salute: monitoraggio delle attività corporee reazione immediate se i valori cambiano pericolosamente 14

DW vs Big data DW vs Big Data http://www.slideshare.net/vishaltx/a2c-bostonbig-data-meetup-20131114 15

DW vs Big Data http://www.slideshare.net/hadoop_summit/hado op-and-enterprise-data-warehouse Che dati servono? 16

Riferimenti Matteo Golfarelli, Stefano Rizzi Data Warehouse - teoria e pratica della Progettazione (seconda edizione) McGraw-Hill Ralph Kimball, Margy Ross The Data Warehouse Toolkit (second edition) The Complete Guide to Dimensional Modeling Wiley Computer Publishing Claudia Imhoff, Nicolas Galemmo Mastering Data Warehouse Design Relational and Dimensional Techniques Wiley Publishing, Inc. 33 Comunicazioni La distribuzione del materiale didattico e le comunicazioni avverranno tramite il sito del corso, accessibile tramite Moodle http://elearning.unimib.it/ E strettamente richiesta l iscrizione al corso. 34 17

Lezioni / Esercitazioni Lezioni / Esercitazioni: Ogni Mercoledì 16:30 18:30 aula T023 Proposta iniziare alle 16.30 precise Ogni Venerdì 12:30 14:30 aula T023 Proposta: iniziare alle 12.30 precise 35 Seminari (da confermare) Seminario di Cloudera e reply Architetture per big data e esperienze reali Seminari (IBM): Lo strumento Cognos per il DW Soluzioni IBM per la gestione di Big Data 36 18

Modalità d esame Svolgimento di un progettino Da svolgere singolarmente o in gruppi di massimo due studenti L argomento deve essere concordato con il docente Possibili argomenti Analisi, progettazione e sviluppo di un datawarehouse L argomento è a scelta dello studente ma deve includere anche le sorgenti dati Realizzazione di un esempio di applicazione di big data analysis Data quality Analisi, implementazione e sviluppo di una o più metriche di data quality con sperimentazione Altri argomenti proposti dagli studenti e inerenti i contenuti del corso Il progetto può essere esteso a tesi magistrale Prova orale Discussione del progettino. Domande sui contenuti del corso. 37 Contenuti del Corso: Datawarehouse Analisi e riconciliazione delle sorgenti amministratore db Analisi dei requisiti utente finale Progettazione concettuale Raffinamento del carico di lavoro Progettazione logica progettista Progettazione dell alimentazione Progettazione fisica 38 19

Contenuti del Corso: Datawarehouse Analisi e riconciliazione delle fonti dati : analizzare gli schemi delle sorgenti disponibili (ricognizione); evidenziare correlazioni inespresse (normalizzazione); selezionare porzioni di interesse; valutare qualità dei dati. Analisi dei requisiti : raccogliere, filtrare e documentare i requisiti degli utenti finali con l obiettivo di delineare le informazioni di interesse (fatti) da rappresentare; stimare il carico di lavoro cioè definire le misure quantitative e le aggregazioni più interessanti. Progettazione concettuale : creare uno schema di fatto (fatti, misure, dimensioni e gerarchie) per ciascun fatto di interesse evidenziato dall utente. 39 Contenuti del Corso: Datawarehouse Raffinamento del carico di lavoro : validare lo schema concettuale mediante la verifica della possibilità di formulare le interrogazioni previste. Progettazione logica : scegliere tra un implementazione ROLAP o MOLAP; Se ROLAP, si prosegue con creazione di schema a stella, materializzazione delle viste e frammentazione verticale e orizzontale. Progettazione dell alimentazione : prendere decisioni che riguardano il processo di alimentazione del livello riconciliato, se presente, e del data mart. Progettazione fisica : scegliere gli indici da costruire per ottimizzare le prestazioni. 40 20

Contenuto del Corso: Big Data Definizione e architetture di riferimento Cloudera IBM Linguaggi di programmazione di big data Map-Reduce/hadoop Spark Applicazioni big data Possibilità di accedere alla macchina PICO del CINECA Contenuto del corso: Data Visualization Teoria, tecniche e soluzioni Strumenti open source Esempi applicazioni 21