Predictive Analysis e Data Mining con Microsoft SQL 2005 Roberto Butinar Cristiano Dal Farra Danilo Selva 1
Bisight è: Business Process Consulting Business Intelligence Data Mining 2
PentaLab è: 3
Data Mining: una definizione L'insieme delle tecniche necessarie ad estrapolare modelli non evidenti da database di grandi dimensioni, utili per effettuare previsioni e quindi guidare le scelte. Storicamente, è il risultato di un processo che ha fatto convergere la ricerca nei campi dell intelligenza artificiale (learning machines) e dell analisi statistica, reso possibile dal costante aumento delle capacità di elaborazione e storage degli attuali sistemi informatici. 4
Data Mining = prospective, proactive information delivery Evolutionary Step Business Question Enabling Technologies Characteristics Data Collection(1960s) "What was my total revenue in the last five years?" Computers, tapes, disks Retrospective, static data delivery Data Access(1980s) "What were unit sales in New England last March?" Relational databases (RDBMS), Structured Query Language (SQL), ODBC Retrospective, dynamic data delivery at record level Data Warehousing &Decision Support (1990s) "What were unit sales in New England last March? Drill down to Boston." On-line analytic processing (OLAP), multidimensional databases, data warehouses Retrospective, dynamic data delivery at multiple levels Data Mining (today) "What s likely to happen to Boston unit sales next month? Why?" Advanced algorithms, multiprocessor computers, massive databases Prospective, proactive information delivery Fonte: www.thearling.com 5
How many sales were made, by territory, by sales person between the months of May and June in 1999? Business Intelligence Who is my core customer that purchases a particular product we sell? Geographically, how well would a line of products sell in a particular region and who would purchase them, given the sale of similar products in that region? Data Mining Fonte: www.sql-serverperformance.com 6
Principali ambiti di applicazione Marketing Esempio: quale segmento di clientela attuale o potenziale reagirà meglio ad una determinata campagna / introduzione di nuovo prodotto? Finanza Esempio: quale classe di rischio associare ad un determinato soggetto, ad esempio per stimare la sua probabilità di insolvenza? Ricerca Medica Esempio: quale terapia risultera piu efficace per un determinato soggetto, quali sono gli elementi significativi da prendere in considerazione (es.espressione genica). Altri Ambiti: Fraud Detection, Text Mining, Controllo Qualità 7
Da un punto di vista logico, storico e architetturale, Datawarehouse e Business Intelligence sono la premessa per il DataMining. Architettura Il tipico processo è raffigurato nel seguente esempio, dove la raccolta dei dati passa per processi di trasformazione (ETL), arriva al datamining, il quale attraverso la definizione di un modello fornisce risposte ed indicazioni ai decision makers, per consentire poi un successivo raffinamento del modello e del processo di raccolta. Ciclo di miglioramento continuo. Fonte: www.sql-serverperformance.com 8
Data Mining e sistemi operazionali In taluni processi il Data Mining diventa inoltre parte integrante dei sistemi operazionali, cioè le previsioni del modello definiscono gli step ulteriori del processo (es. dare o meno accesso al credito ad un soggetto che lo richiede) Fonte: www.sql-serverperformance.com 9
Mercato Data Mining: Leader e Competitor Pur essendo logicamente conseguenti, fino ad oggi, il DataMining è stato il terreno di azione di software specifici. I leader riconosciuti del settore sono in questo momento: SAS e SPSS, ma secondo Gartner le cose potrebbero cambiare il prossimo anno con l ingresso di Microsoft e Oracle. Microsoft, Oracle (not now, but easily next year) However, CRM leaders such as Microsoft, Oracle, Siebel and SAP haven't had strong offerings, he said. But that could change this year. Once these "800-pound gorillas of CRM" -- particularly Microsoft and Oracle -- come out with more market-impacting, visionary strategies, they could easily take over the challenger's quadrant as soon as next year, Herschel (research director at Gartner and author of the Magic Quadrant for Data Mining) said. Fonte: Gartner (13 giugno 2007) 10
Mercato Business Intelligence: Evoluzione 2007 is the largest-ever BI acquisition: Oracle s $3.3bn purchase of Hyperion Solutions, Business Objects purchasing Cartesis SAP has also bought OutlookSoft Cognos is buying Applix. October 2007: SAP has also bought Business Objects for 4,8bn! Fonte: www.olapreport.com 11
Mercato Business Intelligence: Trend Microsoft has now clearly overtaken Hyperion Solutions to become by far the largest OLAP vendor. Fonte: www.olapreport.com 12
Microsoft nell arena della Business Intelligence estesa Customer Relationship Management (Dynamics CRM) SQL Server 2005 Business Intelligence (Reporting Services, Excel 2007) Data Mining (Visual Studio, Excel 2007) ERP (NAV, AX) Analysis Services Performance Management (Performance Point Server) Operational ETL, Datawarehousing, Modelling Business Intelligence e Data Mining Performance Management (scorecard, budgeting, planning) 13
Alcuni punti di forza di SQL Server 2005 in area Data Mining Algoritmi Numerosi e Sofisticati Interfaccia Avanzata, grafica, integrazione nativa con Excel Programmabilità DMX e supporto linguaggi di altri prodotti (PMML) Prezzo 14
Gli algoritmi a disposizione 15
L interfaccia (Visual Studio) 16