AICA - Workshop
La Mappa di un sistema di BI I tre elementi che hanno "cambiato il gioco": Maturazione degli ETL open source La semplificazione di Amazon EC2 L'arrivo dei DB Colonnari Nel dettaglio Cos'è un tool di ETL, fattori critici Amazon EC2: cosa offre e perchè abilita nuove possibilità Il DB "column oriented": il funzionamento interno e perchè usarlo "on the cloud" Il case study: analisi CRM di un business online: Come sarebbe stato 5 anni fa Come è stato realizzato l'anno scorso Come sarà modificato nell'evoluzione Le nuove opportunità e le sfide di sempre: Scalabilità 1: si può partire dal piccolo e crescere per evoluzioni Scalabilità 2: le sfide dell'etl su grandi moli di dati The song remains the same: qualità, coerenza, chiarezza. Agenda
LA MAPPA DEI SISTEMI BI
Real Time Data Integration Reporting Staging Data Warehousing Data Mining ETL Data Integration Consolidamento Dati Analysis - Olap engine Analisi La mappa tecnologica
Che cosa è cambiato?
Gli ERP commerciali «standard» includono già dei moduli di BI, ma non coprono tutti i processi e le customizzazioni Nuovi servizi ed applicazioni (SaaS e non solo), con nuove API, che devono essere integrate In generale... Nuove sfide
Ed era il 2007!!!!
Si è sviluppata un offerta di ETL Open Source, che permettono l integrazione fra sorgenti di ogni tipo Si sono evolute le tecnologie per il DW con l avvento dei DBMS colonnari L offerta «Grid» permette una maggiore scalabilità degli investimenti hardware Che novità?
ETL Open Source
Gran parte delle risorse dei progetti BI sono spese per la scrittura di job di integrazione e consolidamento La scelta di un tool di E(xtract)T(ransform)Load è critica: Performance in esecuzione Disponibilità connettori Produttività dello sviluppo e della manutenzione La nuova generazione di ETL open source è diventata «on-par» con le offerte commerciali ETL Open Source
Il DataWarehousing ha sempre sfruttato i motori relazionali RDBMS classici per offrire una visione dei dati utile per l analisi Ma i RDBMS sono ottimizzati per la solidità nelle transazioni su pochi dati Per l analisi si fanno spesso query che coinvolgono molti dati, ma solo in «lettura» DB Colonnari
I motori RDBMS classici persistono i record accodando le righe in sequenza : I db colonnari invece creano blocchi omogenei dei valori delle colonne, comprimendoli per ridurre l I/O in lettura. DB Colonnari
Le query analitiche spesso agiscono su poche colonne. Il motore non usa indici tradizionali, ma tabelle di correlazione fra i valori che si creano di query in query, man mano si consultano i dati. In questo modo il tuning è automatico Il fatto che i dati siano compressi porta a lavorare più sulla CPU che sull I/O DB Colonnari
Alcuni DB colonnari si integrano in MySql, quindi sono disponibili e testati tutti i client di comunicazione, i tool di amministrazione etc. Architettura
Prima della cura
Amazon AWS - Dopo la cura
In sintesi Amazon offre la possibilità di affittare «macchine virtuali» accendendole e spegnendole a fronte delle necessità, ed il loro costo è concorrenziale rispetto al TCO totale di un infrastruttura in-house Due sono le criticità: Server in Irlanda Banda! I/O non eccezionale Amazon AWS
E possibile creare una infrastruttura per il DW: che minimizzi l investimento iniziale in licenze e hw che scali al crescere delle necessità assolutamente all altezza delle soluzioni «blasonate» In generale
Case Study
Azienda che opera nel retail online 6 anni di transazioni in linea Fatti per 70 Milioni di righe complessive analizzate trasversalmente Lo scenario
Replica MySql Replica DB Produzioner DB Produzione Staging ETL Browser DW Web Farm Istanza Quantyca Architettura Classica
Replica MySql Replica DB Produzioner DB Produzione Web Farm Staging ETL Browser DW Istanza Quantyca Amazon EC2 Architettura Prima Release
Replica MySql Replica Staging ETL Replica DB Produzione Web Farm Data Mart Browser Viste Logiche Istanza Quantyca Amazon EC2 Architettura Seconda Release
In conclusione
Le novità tecnologiche sono un opportunità, non una soluzione Il miglior software di Business Intelligence crolla di fronte ad una bassa qualità dei dati Comunque, indipendentemente dalla situazione aziendale, non ci sono più scuse per non affrontare un progetto organico di BI, anche partendo dal «piccolo», per crescere nel tempo Partire sempre dall area con maggior coerenza e qualità dei dati, tratteggiando una strategia generale. L infrastruttura seguirà... Pensieri finali