Architetture per l analisi di dati



Documenti analoghi
Cosa è un data warehouse?

Governo Digitale a.a. 2011/12

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data Warehousing (DW)

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione

Basi di Dati Direzionali

Rassegna sui principi e sui sistemi di Data Warehousing

Data Warehousing: concetti base e metodologie

Introduzione al data warehousing

Data warehouse Introduzione

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2)

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

On Line Analytical Processing

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

4 Introduzione al data warehousing

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Basi di Dati Complementi Esercitazione su Data Warehouse

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

SQL/OLAP. Estensioni OLAP in SQL

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Introduzione ad OLAP (On-Line Analytical Processing)

Data Warehousing e Data Mining

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Lezione 1. Introduzione e Modellazione Concettuale

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Dominio applicativo. Analisi e ricognizione delle fonti dati

Dispensa di database Access

B C I un altro punto di vista Introduzione

Sistemi informativi secondo prospettive combinate

DSCube. L analisi dei dati come strumento per i processi decisionali

FIRESHOP.NET. Gestione del taglia e colore.

Il database management system Access

1. BASI DI DATI: GENERALITÀ

Convegno 6 giugno 2013 Federlazio Frosinone

Le Basi di Dati. Le Basi di Dati

I sistemi di reporting e i rapporti direzionali

Ciclo di vita dimensionale

Database. Si ringrazia Marco Bertini per le slides

Volumi di riferimento

Utilizzando Microsoft Access. Si crea la tabella Anagrafica degli alunni,le Materie e i voti si mettono alcuni campi

Organizzazione degli archivi

Progettazione di Basi di Dati

Progettaz. e sviluppo Data Base

Introduzione ai database relazionali

Relazione sul data warehouse e sul data mining

Data warehousing con SQL Server

Lezione V. Aula Multimediale - sabato 29/03/2008

Il catalogo MARKET. Mk6 Il sell out e il trade marketing: tecniche, logiche e strumenti

Data warehousing con SQL Server

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

I database relazionali (Access)

Pianificazione del data warehouse

PBI Passepartout Business Intelligence

Lorenzo Braidi. Database design. Libro_datadesign.indb :06:17

ISTITUTO TECNICO ECONOMICO MOSSOTTI

02/mag/2012. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale

Aris TimeSheet. che guardano oltre. enti e aziende. Soluzioni per

Organizzazione delle informazioni: Database

La Metodologia adottata nel Corso

Introduzione alla Business Intelligence.

Sistemi per la gestione di database: MySQL ( )

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Basi di Dati Prof. L. Tanca e F. A. Schreiber APPELLO DEL 12 FEBBRAIO 2015 PARTE 1

SOLUZIONE Web.Orders online

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

GammaApp. & Euro09 Evolution

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

OLAP On Line Analytical Processing

Introduzione al Data Warehousing

Gestione del workflow

Basi di dati 9 febbraio 2010 Compito A

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

SOFTWARE A SUPPORTO DELLA GESTIONE AMMINISTRATIVA DELLO SPORTELLO UNICO SPECIFICA DEI REQUISITI UTENTE

Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica. Ingegneria del Software. La fase di Analisi

CRM / WEB CRM CUSTOMER RELATIONSHIP MANAGEMENT

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Al giorno d oggi, i sistemi per la gestione di database

Data warehouse. della spesa sanitaria. acquisizione della conoscenza. Statistical Learning & Information Management

Introduzione alla Business Intelligence

WebBi S.r.l offre consulenza e soluzioni per le seguenti aree: Data Warehousing. Business Intelligence. Disegno di architetture integrate

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

Data Mining a.a

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

FIRESHOP.NET. Gestione completa delle fidelity card & raccolta punti. Rev

Sistemi di Gestione dei Dati e dei Processi Aziendali. Computer-Assisted Audit Technique (CAAT)

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Progetto di basi di dati Laboratorio di diagnosi mediche

Prova scritta del corso di Basi di dati attive 17 Dicembre Agenzia

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

ARCHIVI E DATABASE (prof. Ivaldi Giuliano)

Introduzione al data base

Esercitazione di Basi di Dati

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

DATABASE RELAZIONALI

marca (1,n) (1,1) nome prezzou prodotto nome responsabile quantità nome datai dataf (0,n) vendite (0,n) (0,n) (0,n) tempo acquisti quantità (0,n)

Transcript:

Architetture per l analisi di dati Basi di dati: Architetture e linee di evoluzione - Seconda edizione Capitolo 8 Appunti dalle lezioni Motivazioni I sistemi informatici permettono di aumentare la produttività delle organizzazioni automatizzandone la gestione operativa quotidiana. Questi dati possono essere utilizzati per la pianificazione e il supporto alle decisioni se opportunamente accumulati e analizzati. Una corretta gestione dei dati storici può cioè essere occasione di un grande vantaggio competitivo. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 2

SISTEMI INFORMATIVI DIREZIONALI Il livello operativo Si occupa delle attività attraverso cui l azienda produce i propri servizi e prodotti. Il livello direzionale Si occupa di quelle attività necessarie alla definizione degli obiettivi da raggiungere ed alle strategie da intraprendere per perseguirli. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 3 Piramide di Anthony Pianificazione strategica Determina gli obiettivi generali dell azienda. Controllo direzionale Definisce traguardi economici ovvero risultati da conseguire a medio termine e loro verifica. Controllo operativo Assicura che le attività dei processi aziendali procedano nel modo prefissato. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 4

Sistemi di supporto alle decisioni DSS Supportano la dirigenza aziendale nel prendere decisioni tattico-strategiche In maniera efficace e veloce Ma su quali dati? Quelli accumulati per i processi operativi e gestionali Transaction Processing Systems: OLTP: On-Line Transaction Processing Decision Support Systems: OLAP: On-Line Analytical Processing Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 5 OLTP Tradizionale elaborazione di transazioni che realizzano i processi operativi dell azienda. Caratterizzati da: Operazioni predefinite, brevi e relativamente semplici. Ogni operazione coinvolge pochi dati. Dati di dettaglio, aggiornati. Acidità delle transazioni essenziale. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 6

OLAP Elaborazione di operazioni per il supporto alle decisioni Caratterizzati da: Operazioni complesse e casuali. Ogni operazione può coinvolgere molti dati. Dati aggregati, storici, anche non attualissimi. Le proprietà acide non sono rilevanti, perché le operazioni sono di sola lettura. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 7 OLTP vs. OLAP OLTP OLAP Utente impiegato dirigente Funzione operazioni giornaliere supporto alle decisioni Progettazione orientata all'applicazione orientata ai dati Dati correnti, aggiornati, dettagliati, relazionali, omogenei storici, aggregati, multidimensionali, eterogenei Uso ripetitivo casuale Accesso read-write, indicizzato read, sequenziale Unità di lavoro transazione breve interrogazione complessa Record acc. decine milioni N. utenti migliaia centinaia Dimensione 100MB - 1GB 100GB - 1TB Metrica throughput tempo di risposta Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 8

OLTP vs. OLAP I requisiti sono quindi contrastanti OLTP Base di dati Le applicazioni dei due tipi possono danneggiarsi a vicenda OLAP Data Warehouse APPLICAZIONE OLTP APPLICAZIONE OLAP UTENTI FINALI (Transazioni) ANALISTI (Query complesse) Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 9 Dettagli dell architettura dei SID Data WareHouse Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 10

Data warehouse Una base di dati Utilizzata principalmente per il supporto alle decisioni direzionali Integrata Dati dipendenti dal tempo e aggregati Non volatile e fuori linea Orientata ai soggetti Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 11 Integrata I dati di interesse provengono da varie sorgenti informative ciascun dato proviene da una o più di esse Il data warehouse rappresenta i dati in modo univoco riconciliando le eterogeneità dalle diverse rappresentazioni nomi struttura codifica rappresentazione multipla. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 12

Dati storici Le basi di dati operazionali mantengono il valore corrente delle informazioni L orizzonte temporale di interesse è dell ordine dei pochi mesi Nel data warehouse è di interesse l evoluzione storica delle informazioni L orizzonte temporale di interesse è dell ordine degli anni Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 13 Dati aggregati Nelle attività di analisi dei dati per il supporto alle decisioni non interessa chi ma quanti non interessa un dato ma la somma, la media, il minimo e il massimo, di un insieme di dati Le operazioni di aggregazione sono quindi fondamentali nel warehousing e nella costruzione/mantenimento di un data warehouse. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 14

Fuori linea In una base di dati operazionale, i dati vengono acceduti inseriti modificati cancellati pochi record alla volta Nel data warehouse, abbiamo operazioni di accesso e interrogazione diurne operazioni di caricamento e aggiornamento dei dati notturne che riguardano milioni di record Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 15 Una base di dati separata Diversi motivi: non esiste un unica base di dati operazionale che contiene tutti i dati di interesse la base di dati deve essere integrata non è tecnicamente possibile fare l integrazione in linea i dati di interesse sarebbero comunque diversi devono essere mantenuti dati storici e aggregati l analisi dei dati richiede per i dati organizzazioni speciali e metodi di accesso specifici degrado generale delle prestazioni senza la separazione Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 16

Orientata i soggetti Basi dati per OLTP: hanno un orientamento processivo / funzionale. DW: Non danno informazioni di supporto alle operazioni aziendali ma sono orientati ai soggetti dell analisi. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 17 Architettura Sorgenti esterne Metadati Analisi multidimensionale Basi di dati operazionali Data Warehouse Data mining Sorgenti dei dati Strumenti di analisi Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 18

Sorgenti informative I sistemi operazionali dell organizzazione sono sistemi transazionali (OLTP) orientati alla gestione dei processi operazionali non mantengono dati storici ogni sistema gestisce uno o più soggetti (ad esempio, prodotti o clienti) sono spesso sistemi legacy Sorgenti esterne ad esempio, dati forniti da società specializzate di analisi Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 19 Alimentazione del data warehouse ETL: Extract, Transform, Load Attività necessarie ad alimentare un DW Estrazione accesso ai dati nelle sorgenti Transform Pulizia rilevazione e correzione di errori e inconsistenze nei dati estratti Trasformazione Caricamento trasformazione di formato, correlazione con oggetti in sorgenti diverse con introduzione di informazioni temporali e generazione dei dati aggregati Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 20

Metadati I metadati sono informazioni utili all attività di ETL "Dati sui dati": descrizioni logiche e fisiche dei dati (nelle sorgenti e nel DW) corrispondenze e trasformazioni dati quantitativi Spesso sono immersi nei programmi Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 21 Data Warehouse Server Sistema dedicato alla gestione warehouse Può basarsi su due tecnologie principali MOLAP I dati sono memorizzati in forma multidimensionale tramite speciali strutture dati tipicamente proprietarie ROLAP I dati sono memorizzati in DBMS relazionali (schemi a stella) I produttori di RDBMS stanno iniziando a fornire estensioni OLAP ai loro prodotti Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 22

Strumenti di analisi Consentono di effettuare analisi dei dati utilizzando il Data Warehouse server offrono interfacce amichevoli per presentare, in forma adeguata e facilmente comprensibile, i risultati delle analisi Due principali tipologie di analisi (e quindi di strumenti) Analisi multidimensionale Tools di reportistica Data mining Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 23 Architettura Sorgenti esterne Metadati Analisi dimensionale Basi di dati operazionali Data Warehouse Data Mart Data mining Sorgenti dei dati Strumenti di analisi Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 24

Data mart Un sottoinsieme logico dell intero data warehouse un data mart è la restrizione del data warehouse a un singolo problema di analisi un data warehouse è l unione di tutti i suoi data mart un data mart rappresenta un progetto fattibile la realizzazione diretta di un data warehouse completo non è invece solitamente fattibile Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 25 Variante dell architettura Metadati Sorgenti esterne Analisi dimensionale Basi di dati operazionali Data mining Sorgenti dei dati Data Mart Strumenti di analisi Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 26

MOLAP Articolo Milano-2 Milano-1 Roma-2 Roma-1 Luogo Lettori DVD Tempo Quantità Televisori Lettori CD Videoregistratori 1 trim. 20 2 trim. 20 3 trim. 20 4 trim. 20 Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 27 Dimensioni e gerarchie di livelli regione anno provincia categoria marca trimestre città negozio prodotto mese giorno Luogo Articolo Tempo Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 28

MOLAP: Slice and dice Seleziona e taglia Articolo Luogo Tempo Il manager regionale esamina la vendita dei prodotti in tutti i periodi relativamente ai propri mercati Il manager finanziario esamina la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 29 MOLAP: Slice and dice Seleziona e taglia Articolo Luogo Tempo Il manager di prodotto esamina la vendita di un prodotto in tutti i periodi e in tutti i mercati Il manager strategico si concentra su una categoria di prodotti, una area e un orizzonte temporale. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 30

Risultato di slice and dice LETTORI DVD 1 trim. 2 trim. 3 trim. 4 trim. Roma-1 38 91 66 198 Roma-2 155 219 248 265 Milano-1 121 273 266 326 Milano-2 222 122 155 200 Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 31... e poi di roll-up LETTORI DVD 1 trim. 2 trim. 3 trim. 4 trim. Roma 193 310 314 463 Milano 343 395 421 526 Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 32

Risultato di roll-up Per tutti i negozi 1 trim. 2 trim. 3 trim. 4 trim. Lettori DVD 536 705 735 989 Televisori 567 716 606 717 Lettori CD 187 155 186 226 Videoregistratori 175 191 202 319 Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 33... e poi drill - down Per tutti i negozi Gen Feb Mar Apr Mag Giu Lettori DVD 165 178 193 205 244 256 Televisori 154 201 212 245 255 216 Lettori CD 54 88 45 24 65 66 Videoregistratori 56 64 55 52 64 75 Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 34

Visualizzazione dei dati I dati vengono infine visualizzati in veste grafica, in maniera da essere facilmente comprensibili. Si fa uso di: tabelle istogrammi grafici torte superfici 3D bolle Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 35 Visualizzazione finale di un analisi 1000 900 800 700 600 500 400 300 200 100 0 3 trim.20 2 trim.20 4 trim.20 Lettori DVD Televisori Lettori CD Videoregistratori 1 trim.20 Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 36

Implementazione MOLAP I dati sono memorizzati direttamente in un formato dimensionale (proprietario). Le gerarchie sui livelli sono codificate in indici di accesso alle matrici Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 37 ROLAP Uno schema dimensionale (schema a stella) è composto da Una tabella principale, chiamata tabella dei fatti: Memorizza i fatti e le sue misure Le misure più comuni sono numeriche, continue e additive Varie tabelle ausiliarie, chiamate tabelle dimensione una tabella dimensione rappresenta una dimensione rispetto alla quale è interessante analizzare i fatti Memorizza i membri delle dimensioni ai vari livelli Gli attributi sono solitamente testuali, discreti e descrittivi Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 38

Schema a stella Tempo CodiceTempo Giorno Mese Trimestre Anno Luogo CodiceLuogo Negozio Indirizzo Città Provincia Regione Vendite Tempo Luogo Articolo Cliente Quantità Incasso Articolo CodiceArticolo Descrizione Marca CodiceCategoria Categoria Cliente CodiceCliente Nome Cognome Sesso Età Professione Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 39 Una possibile istanza Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 40

Caratteristiche La tabella fatti memorizza le misure (fatti) di un processo la chiave è composta da riferimenti alle chiavi di tabelle dimensione gli altri campi rappresentano le misure è in BCNF Una tabella dimensione memorizza i membri di una dimensione la chiave primaria è semplice gli altri campi memorizzano i livelli della dimensione tipicamente denormalizzata Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 41 Schema a fiocco di neve Provincia CodiceProv Regione Regione CodiceReg Città CodiceCittà Provincia Luogo CodiceLuogo Negozio Indirizzo Città Vendite CodiceTempo CodiceLuogo CodiceArticolo CodiceCliente Quantità Incasso Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 42

Interrogazioni Le interrogazione assumono solitamente il seguente formato standard SELECT D1.L1,.., Dn.Ln, Aggr1(F.M1),.., Aggrk(F.Ml) FROM Fatti as F, Dimensione1 as D1,.., DimensioneN as Dn WHERE Join-predicate(F,D1) and.. and Join-predicate(F,Dn) and selection-predicate GROUP BY D1.L1,..., Dn.Ln ORDER BY D1.L1,..., Dn.Ln Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 43 Cube SELECT Citta, Categoria, count(quantita)as VenditeCC FROM Vendite as V, Articolo as A, Luogo as L WHERE V.CodiceArticolo = A.CodiceArticolo and V.CodiceLuogo = L.CodiceLuogo GROUP BY CUBE(Citta, Categoria) Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 44

Roll Up SELECT Citta, Categoria, count(quantita) as VenditeCC FROM Vendite as V, Articolo as A, Luogo as L WHERE V.CodiceArticolo = A.CodiceArticolo and V.CodiceLuogo = L.CodiceLuogo GROUP BY ROLLUP(Citta, Categoria) Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 45 Progettazione Esigenze OLAP Dati OLTP Altre sorgenti Selezione delle sorgenti informative Traduzione in modello E/R operativo Integrazione degli schemi E/R operativi Identificazione dello schema portante della DWH Progettazione concettuale globale della DWH Progettazione logica Progettazione fisica Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 46

Statistiche vendite farmaci Il Ministero della Salute ha commissionato la progettazione di un Data Warehouse per effettuare analisi e statistiche circa le vendite di farmaci da parte delle varie farmacie italiane. In particolare si vogliono analizzare le statistiche relative alle tipologie di farmaci venduti suddivisi per area geografica e orizzonte temporale, nonché semplici statistiche sull utenza consumatrice. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 47 Sorgenti informative La prima fase nella progettazione del DWH consiste nell individuazione e analisi delle sorgenti informative contenenti i dati operazionali da analizzare. Da un colloquio con il committente, si evince che ogni farmacia utilizza una base di dati operazionale per la gestione delle vendite dei farmaci implementata attraverso un apposito DBMS relazionale. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 48

Base dati operativa PRODOTTI (Cod, Nome, Ditta, Prezzo, Scorte ) FORNITORI (Nome, Indirizzo, Città, Tel ) FORNITURE (NomeFornitore:FORNITORI, CodProdotto:PRODOTTI) CLIENTI (CF, Tessera, Nome, Cognome, Età, Indirizzo, Tel ) FATTURE (Numero, Data, Totale, CFCliente:CLIENTI) VENDITE (NumFattura:FATTURE, CodProdotto:PRODOTTI, Qta) FARMACI (Cod, Nome, Tipo, Descrizione, Nota CUF, Classe, CodProdottto:PRODOTTI) FORME(Cod, Nome, Dose) COMPOSIZIONI(CodFarmaco:FARMACI, CodForma:FORME) RICETTE(Sigla, Descrizione ) ASSOCIAZIONI(CodFarmaco:FARMACI, SiglaRicetta:RICETTE) Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 49 Schema E/R Dall analisi di tale schema logico, seguendo poi un semplice processo di reverse engineering, è possibile individuare lo schema E/R di riferimento (uguale per le varie sorgenti informative). Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 50

Schema E/R della base dati operativa Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 51 Schema ER portante della DWH Per la progettazione del DWH si identificano in prima istanza le seguenti informazioni direzionali : Vendite/Fatture, Prodotti/Farmaci, Clienti. Prodotti/Farmaci Vendite/Fatture Clienti Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 52

Con fatti misure e dimensioni Lo schema concettuale indica che i prodotti di una farmacia (un tipo di farmaco) sono venduti con apposita fattura ai clienti, di cui la farmacia stessa possiede i dati anagrafici. Da tale schema emergono nel contempo: il fatto principale, ovvero la vendita dei farmaci ; le misure, ovvero il prezzo dei farmaci e la quantità venduta ; alcune delle dimensioni dell analisi, ovvero i prodotti e i clienti. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 53 Integrazione degli schemi concettuali Nell ipotesi che le farmacie utilizzano tutte lo stesso schema logico dei dati, sarà semplice effettuare le operazioni di integrazione dei dati nella base di dati direzionale, e, quindi il modello concettuale definito precedentemente, può essere considerato come il punto di partenza per l implementazione del DWH. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 54

Progettazione logica In questa fase si deriva lo schema multi dimensionale individuando ulteriori dimensioni di analisi: il tempo giorno, mese, trimestre e anno) area geografica in termini della città, provincia e regione della farmacia che ha effettuato la vendita Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 55 Progettazione fisica Nella fase di progettazione fisica si determina lo schema relazionale a stella e, per consentire un buon livello di aggregazione delle informazioni, si decide di normalizzare la sola collocazione geografica delle farmacie ottenendosi uno schema relazionale a stella del tipo a fiocco di neve. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 56

Lo schema a fiocco di neve Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 57 Gestione dei dati Su tale DW è possibile effettuare in maniera semplice interrogazioni come: selezione del farmaco più venduto in Campania. determinazione dell età media dei consumatori di un dato farmaco. I clienti di una specifica farmacia. Infine vanno pianificate apposite procedure di refreshing per aggiornare il contenuto del data warehouse ad intervalli di tempo prefissati. Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 58

Data mining Insieme di tecniche di ricerca di informazione nascosta in una collezione di dati Approccio alternativo all analisi MOLAP estrarre informazioni di supporto alle decisioni da un data warehouse Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 59 Problemi classici di data mining Classificazione catalogare un fenomeno in una classe predefinita sulla base di fenomeni già catalogati Associazioni individuare regolarità in un insieme di transazioni anonime Pattern sequenziali individuare regolarità in un insieme di transazioni non anonime, nel corso di un periodo temporale Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 60

Associazioni Dati di ingresso: sequenze di oggetti (transazioni) Obiettivo: trovare delle regole che correlano la presenza di un insieme di oggetti con un altro insieme di oggetti Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 61 Esempio di regola Pannolini Birra il 30% delle transazioni che contiene Pannolini contiene anche Birra il 2% tra tutte le transazioni contiene entrambi gli oggetti Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 62

Rilevanza delle regole X, Y Z Confidenza C: C% di tutte le transazioni che contengono X e Y contengono anche Z forza della regola Supporto S: la regola è verificata in S% delle transazioni rispetto a tutte le transazioni rilevanza statistica Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 63 Pattern sequenziali Dati di ingresso: insieme di transazioni eseguita da un certo cliente Obiettivo: trovare le sequenze di oggetti che compaiono in almeno una certa percentuale data di insiemi di transazioni Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 64

Esempi Il 5% dei clienti ha comprato un lettore di CD in una transazione e CD in un altra il 5% è il supporto del pattern Applicazioni misura della soddisfazione del cliente promozioni mirate medicina (sintomi - malattia) Basi di Dati 2 Prof. Antonio d Acierno Architetture per l analisi dei dati 65