Analytics 2012 L impatto del Big Data sull enterprise Data Warehouse: il caso di SDA Express Courier Ing. Ivan Luzzi Delivery Manager, Crisma S.r.l. 1
Agenda Il system Integrator: Crisma Il cliente: SDA Express Courier Il ciclo di vita delle spedizioni Enterprise Data Warehouse Architettura precedente Architettura attuale Architettura futura Greenplum Risultati 2
Crisma Siamo un System Integrator specializzato in servizi e soluzioni di Business Intelligence, Sicurezza logica e fisica, soluzioni multimediali e marketing disiamo Siamo un System Integrator italiano specializzato in servizi e soluzioni di Business Intelligence, sicurezza fisica, siti e APP mobile. Nasciamo nel 2003, oggi contiamo 70 dipendenti su 3 sedi operative (Roma, Milano, Ugento - LE). In ambito Business Intelligence abbiamo un know how consolidato in analisi dei processi, progettazione e realizzazione di sistemi di supporto alle decisioni e di controllo di gestione, realizzazione di Datawarehouse, Cruscotti direzionali, Sistemi di Reportistica avanzata e Data mining. 3
SDA Express Courier: storia e attività SDA Express Courier è un azienda leader nei servizi di corriere espresso. Fondata nel 1984 si presenta oggi sul mercato come il partner ideale per la logistica, distribuzione e la vendita a distanza. Grazie alla continua acquisizione di clienti l azienda ha acquisito un grande bagaglio di esperienza permettendole di offrire soluzioni in grado di soddisfare le diverse esigenze dei clienti. Nel 1999 l'ingresso nel Gruppo Poste Italiane ha dato modo a SDA di essere parte di un'azienda profondamente legata al tessuto geografico e sociale dell'italia, rendendola ancora più competitiva. 4
Il ciclo di vita delle spedizioni: tracking Attività di controllo del ciclo di vita delle spedizioni: dal ritiro presso il mittente fino alla consegna al destinatario. Il ciclo di vita della spedizione è caratterizzato dalla successione degli stati assunti nel tempo dalla singola spedizione, il cosiddetto tracking; ogni stato fornisce la posizione assunta dalla spedizione lungo la sua traiettoria ideale: ritirato, smistato, in arrivo a filiale di destino, consegnato, etc. Il monitoraggio di eventuali eccezioni : mancate consegne giacenze nei centri di smistamento ritorno al mittente 5
Tracking: obiettivi Gli obiettivi di questo controllo sono molteplici: Pianificare al meglio l'operatività Supportare le eventuali contestazioni Fornire informazioni al marketing, alle vendite, all'amministrazione e agli enti preposti alla verifica della bontà dei processi. Utenti interessati alla fruizione dei dati di dettaglio: Utenti interni Clienti Partner 6
Attività di analisi Andamenti storici delle vendite/spedizioni Individuazione dei trend delle vendite/spedizioni per zona geografica, area operativa, canali di vendita. Redditività dei clienti per canale vendita di appartenenza, unità organizzativa, zona geografica, categoria merceologica, Spedizioni e consegne: puntualità, distribuzioni nel tempo e nello spazio Analisi portafoglio clienti Segmentazione del parco clienti SDA Survival Analysis & Life Time Value (LTV) Valutazione della qualità dei servizi offerti ai clienti. 7
Enterprise Data Warehouse Dal 2005 in SDA è presente un sistema di supporto alle decisioni, ovvero un Data warehouse aziendale realizzato in ambiente SAS Foundation V9.2 su tecnologia Informix (Extended Parallel Server) A supporto degli utenti di Business: Marketing CRM Analisi Vendite Amministrazione vendite Pec 8
Architettura logica/applicativa precedente Processi e componenti dell architettura logica/applicativa del precedente DWH Flussi provenienti dai sistemi alimentanti Estrazione caricamento e controllo Staging area (ODS): punto di raccolta pulizia e riconciliazione dei dati provenienti dai sistemi alimentanti Estrazione standardizzazione,riconciliazione e Pulizia Data Warehouse Primario: contenitore dei dati al massimo livello di dettaglio e con la profondità storica predefinita Sistemi alimentanti DBMS informix ETL ETL Staging Area & DWH Primario Repository sas ETL Data-Mart Marketing Data-Mart Qualità Data-Mart CRM Trasformazione e aggregazione(sas) e caricamento su XPS Livello di analisi: strutture dati dedicate (Data Mart). File esterni Data Warehouse Aziendale Informix Extended Parallel Server 9
Livelli del Data Warehouse Staging Area contiene la copia dei dati operazionali a cui sono stati applicati solamente controlli formali e di consistenza Data warehouse primario contiene dati aziendali di dettaglio organizzati secondo principi di: Completezza del dato Massima granularità del dato Storicità del dato Certificazione del dato complessivo Data warehouse secondario costituito da Data Mart tematici con dati aggregati: Settore Marketing Settore Pianificazione e Controllo Settore Assicurazione qualità e gestione delivery Analisi per il Customer Profiling 10
Criticità: BigData Enorme mole di dati di dettaglio: 250.000 spedizioni al giorno 1.500.000 eventi giornalieri che caratterizzano le spedizioni Richiesta di ridurre i tempi di acquisizione, caricamento ed elaborazione del dato Aumento del numero e tipo di utenti che richiedono il dato 11
Architettura logica/applicativa attuale Processi e componenti dell architettura logica/applicativa attuale Flussi provenienti dai sistemi alimentanti Estrazione caricamento e controllo Repository Greenplum: Alimentatoda flussietl giornalieridaidbms Sistemi alimentanti ETL Repository Greenplum ETL Repository sas Data-Mart Marketing Estrazione standardizzazione,riconciliazione e Pulizia Data Warehouse Primario: contenitore dei dati al massimo livello di dettaglio e con la profondità storica predefinita DBMS informix Staging area DWH Primario ETL Data-Mart Qualità Data-Mart CRM Trasformazione e aggregazione (SAS) e caricamento su Greenplum Livello di analisi: strutture dati dedicate (Data Mart) e dati storici di dettaglio. File esterni DWH Primario & Data Mart Data Warehouse Aziendale 12
Caratteristiche della soluzione Univocità dell ambiente di DWH: tutte le informazioni di business intelligence risiederanno in un unico ambiente, in particolare nel DHW aziendale garantendo l assenza di ridondanza dei dati. Greenplum come Data Computer Appliance: la scelta di andare verso un «appliance» ha garantito una veloce transizione dalla vecchia alla nuova architettura con vantaggi immediati dal punto di vista dei tempi di caricamento e di interrogazione. SAS come motore di analisi statistica: la grande competenza di almeno una parte degli utenti, le indubbie capacità dello strumento nell effettuare analisi statistiche complesse ed il nutrito numero di procedure informatiche già consolidate indicano l adozione della piattaforma SAS rispetto ad altre piattaforme di elaborazione statistica. BusinessObjects come unico strumento di reporting: BO XI è strumento aziendale adottato per l effettuazione di Query & Reporting sia sui dati aggregati (Data Mart) sia ora anche su quelli di dettaglio (DWH primario) 13
Architettura logica/applicativa futura Processi e componenti dell architettura logica/applicativa futura 14
Greenplum: caratteristiche distintive Interconnect Loading MPP Architecture Parallel processing Fast querying Linear scalability Polymorphic storage Row and columns Scatter/Gather streaming technology Loading rates up to 10 TB/hr per rack Online Expansion Adding nodes in less than 5 minutes High availability Automatic failover Permanent Replications Advanced Workload management Dynamic query prioritization Connections and resources management Native Map reduce Processing Parallel processing for unstructured data In database Analytics Library of analytical functions executed in parallel 15
Soluzione Greenplum 16
Prestazioni nei caricamenti 17
Prestazione nelle interrogazioni 18
Data Mart del Marketing Library Name Member Name Member Type Number of Observations DIMTABLE DIM_ANAGRAFICACLIENTI DATA 3,817,502 DIMTABLE DIM_FASCIAPESOSDA DATA 22 DIMTABLE DIM_FATTURAZIONE DATA 38 DIMTABLE DIM_GEOGRAFICA DATA 5,014,689 DIMTABLE DIM_INDICATORISDA DATA 34 DIMTABLE DIM_PORTAFOGLI DATA 4,620,123 DIMTABLE DIM_POSTAZIONI DATA 79,959 DIMTABLE DIM_PRODOTTI DATA 427 DIMTABLE DIM_SERVIZISDA DATA 4,215 DIMTABLE DIM_TEMPO DATA 1,002 DIMTABLE DIM_UNITAOPERATIVE DATA 314,161 FACTABLE FATTO_MARKETING DATA 207,396,979 Totale Record Tempo medio di caricamento Greenplum Tempo medio di caricamento su Informix XPS 221,249,151 0:52:20 8:17:19 19
Scalabilità lineare delle prestazioni 20
Benefici della soluzione Greenplum Parallelismo incondizionato Le operazioni di full table scan sono effettuate sempre con lo stesso livello di parallelismo. Velocità di caricamento dei dati Possibilità di connettere l infrastruttura di ETL direttamente al bus MPP. Garantisce prestazioni di caricamento ineguagliabili Impatto zero sull infrastruttura di rete aziendale Partizionamento dei dati Migliori prestazioni delle query Gestione della «temperatura» dei dati Possibilità di utilizzo di Indici Migliori prestazioni delle query 21
Partnership EMC-Greenplum / Crisma EMC - Greenplum, la soluzione tecnologica EMC - Professional Services, la garanzia di supporto, integrazione con altre tecnologie, l evoluzione tecnologica Crisma, partner EMC Greenplum, con competenze sulla tecnologia e sul business SDA 22
Contatti Crisma S.R.L. http://www.crismaitalia.it Sales Manager - Barbara Farulli b.farulli@crismaitalia.it Technical Manager - Ivan Luzzi i.luzzi@crismaitalia.it Headquarter Roma Via Rhodesia, 2 00144 Roma Italy Tel. +39 06 94365650 Fax +39 06 45426345 Subsidiary Milano Piazzale Biancamano, 1 20154 Milano Italy Tel. +39 02 43.12.39.40 23