IBM SPSS Modeler 14.2 Guida alla modellazione in-database



Documenti analoghi
IBM SPSS Modeler 15 Guida alla modellazione in-database

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (licenza per sito)

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (utente singolo)

Installazione di IBM SPSS Modeler 14.2 Client (licenza di rete)

Installazione di IBM SPSS Modeler 14.2 Client (utente singolo)

SPSS Statistics per Windows - Istruzioni di installazione per (Licenza per utenti singoli)

Istruzioni di installazione di IBM SPSS Modeler Text AnalyticsServer per Windows

Licenza per sito Manuale dell amministratore

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

IBM SPSS Statistics per Windows - Istruzioni di installazione (Licenza per utenti singoli)

IBM SPSS Statistics per Windows - Istruzioni di installazione (Licenza per sito)

IBM SPSS Modeler 16 Guida al mining nel database

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

IBM SPSS Modeler Social Network Analysis 16 Guida all'installazione e alla configurazione

Installazione MS SQL Express e utilizzo con progetti PHMI

Che cos'è un modulo? pulsanti di opzione caselle di controllo caselle di riepilogo

IBM SPSS Statistics per Windows - Istruzioni di installazione (Licenza per utenti singoli)

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Windows

Installazione e caratteristiche generali 1

Istruzioni di installazione di IBM SPSS Modeler Server 15per Windows

IBM SPSS Statistics per Linux - Istruzioni di installazione (Licenza per sito)

Capitolo 4 Pianificazione e Sviluppo di Web Part

Manuale Amministratore Legalmail Enterprise. Manuale ad uso degli Amministratori del Servizio Legalmail Enterprise

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Windows

IBM SPSS Statistics - Essentials for R- Istruzioni di installazione per Windows

IBM SPSS Statistics - Essentials for R - Istruzioni diinstallazione per Mac OS

Airone Gestione Rifiuti Funzioni di Esportazione e Importazione

IBM SPSS Statistics - Essentials for R- Istruzioni di installazione per Mac OS

lem logic enterprise manager

IBM SPSS Statistics per Mac OS - Istruzioni di installazione (Licenza per sito)

Configurazione avanzata di IBM SPSS Modeler Entity Analytics

Installazione di GFI Network Server Monitor

Configurazione avanzata di IBM SPSS Modeler Entity Analytics

MANUALE UTENTE Fiscali Free

FileMaker Pro 13. Utilizzo di una Connessione Desktop Remota con FileMaker Pro13

Corso basi di dati Installazione e gestione di PWS

Cosa è un foglio elettronico

Installazione di GFI WebMonitor

Mon Ami 3000 Produzione base Produzione articoli con distinta base e calcolo dei fabbisogni

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Mac OS

IBM SPSS Modeler Social Network Analysis 15 - Guida all installazione e configurazione

Manuale per la configurazione di AziendaSoft in rete

BMSO1001. Orchestrator. Istruzioni d uso 02/10-01 PC

Laplink FileMover Guida introduttiva

e/fiscali - Rel e/fiscali Installazione

BMSO1001. Virtual Configurator. Istruzioni d uso 02/10-01 PC

Manuale Utente Albo Pretorio GA

Software di gestione della stampante

Procedura Gestione Pratiche Sicurezza Cantiere

MANUALE PARCELLA FACILE PLUS INDICE

Software Intel per la gestione di sistemi. Manuale dell'utente di Intel Modular Server Management Pack

Il web server Apache Lezione n. 3. Introduzione

Sistema Informativo Gestione Fidelizzazione Clienti MANUALE D USO

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Mac OS

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

Istruzioni per l installazione

MANUALE PORTALE UTENTE IMPRENDITORE

Modulo 6 Strumenti di presentazione

Manuale Utente Amministrazione Trasparente GA

PORTALE CLIENTI Manuale utente

Aggiornamenti Sistema Addendum per l utente

Anagrafica. Check-List. Autocomposizione guidata

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

List Suite 2.0. Sviluppo Software Il Telefono Sas 10/06/2010

Guida alla registrazione on-line di un DataLogger

Replica con TeraStation 3000/4000/5000/7000. Buffalo Technology

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel

Software di controllo per le denunce retributive e contributive individuali mensili - Ver.1.0

IBM SPSS Statistics per Windows - Istruzioni di installazione (Licenza di rete)

Benvenuti! Novità di PaperPort 10

SOSEBI PAPERMAP2 MODULO WEB MANUALE DELL UTENTE

Sistema operativo. Processore Memoria. Risoluzione dello schermo Browser Internet. Microsoft Internet Explorer versione 6 o superiore

1. Le macro in Access 2000/2003

Nuovo Order Manager per il software NobelProcera

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

PROCEDURE DI FIRMA PER I PIP PRESENTATI NEI BANDI APPRENDISTATO

11/02/2015 MANUALE DI INSTALLAZIONE DELL APPLICAZIONE DESKTOP TELEMATICO VERSIONE 1.0

NOTE OPERATIVE. Prodotto Inaz Download Manager. Release 1.3.0

Il sofware è inoltre completato da una funzione di calendario che consente di impostare in modo semplice ed intuitivo i vari appuntamenti.

STRUMENTI DI PRESENTAZIONE MODULO 6

Regione Piemonte Portale Rilevazioni Crediti EELL Manuale Utente

Microsoft Office XP. dott. ing. Angelo Carpenzano. La suite Microsoft Office XP

ACCESSO AL SISTEMA HELIOS...

GOW GESTIONE ORDINI WEB

Manuale d uso Software di parcellazione per commercialisti Ver [05/01/2015]

Registratori di Cassa

MANUALEDIUTILIZZO MODULO CRM POSTVENDITA

DOCUMENTO ESERCITAZIONE ONENOTE. Utilizzare Microsoft Offi ce OneNote 2003: esercitazione rapida

IBM SPSS Statistics per Windows - Istruzioni di installazione (Licenza di rete)

IBM SPSS Modeler - Istruzioni di installazione (Licenza per l'utilizzo simultaneo)

Introduzione. Installare EMAS Logo Generator

ESERCITAZIONE Semplice creazione di un sito Internet

Al giorno d oggi, i sistemi per la gestione di database

OmniAccessSuite. Plug-Ins. Ver. 1.3

Windows 98 e Windows Me

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

Guida autore all'uso di Lotus Quickr

Transcript:

IBM SPSS Modeler 14.2 Guida alla modellazione in-database

Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag.. Il presente documento contiene informazioni di proprietà di SPSS Inc, una società IBM. Viene fornito su contratto di licenza ed è protetto dalle leggi sul copyright. Le informazioni contenute nella presente pubblicazione non includono alcuna garanzia di prodotto e qualsiasi dichiarazione inclusa nel presente manuale non deve essere interpretata come tale. Al momento dell invio di informazioni a IBM o SPSS, l utente concede a IBM e SPSS un diritto non esclusivo a utilizzare o distribuire tali informazioni nel modo che ritiene appropriato senza incorrere in alcun obbligo nei confronti dell utente. Copyright IBM Corporation 1994, 2011..

Prefazione IBM SPSS Modeler è l efficace workbench di data mining aziendale di IBM Corp.. SPSS Modeler consente alle organizzazioni di migliorare le relazioni con i clienti e con il pubblico grazie a un analisi approfondita dei dati. Le organizzazioni potranno utilizzare le informazioni ottenute tramite SPSS Modeler per mantenere i clienti di valore, cogliere opportunità di vendite incrociate, attrarre nuovi clienti, individuare frodi, diminuire i rischi e migliorare l offerta di servizi a livello statale. L interfaccia visiva di SPSS Modeler favorisce l applicazione di una competenza aziendale specifica da parte degli utenti, grazie alla quale sarà possibile ottenere modelli di previsione più efficaci e una riduzione nei tempi di sviluppo delle soluzioni. SPSS Modeler offre una vasta gamma di tecniche di creazione di modelli, quali previsione, classificazione, segmentazione e algoritmi per l individuazione delle associazioni. IBM SPSS Modeler Solution Publisher consente quindi di distribuire a livello aziendale i modelli creati in modo che vengano utilizzati dai responsabili dei processi decisionali oppure inseriti in un database. Informazioni su IBM Business Analytics Il software IBM Business Analytics fornisce informazioni complete, coerenti e accurate a cui i responsabili delle decisioni possono affidarsi per ottimizzare le prestazioni dell azienda. Un ampio portafoglio di applicazioni di business intelligence, analisi predittiva, gestione delle prestazioni e delle strategie finanziarie e analisi offre una panoramica chiara, istantanea e interattiva delle prestazioni attuali e la possibilità di prevedere i risultati futuri. Utilizzato in combinazione con potenti soluzioni di settore, prassi consolidate e servizi professionali, questo software consente alle aziende di tutte le dimensioni di ottimizzare la produttività, automatizzare le decisioni senza problemi e fornire risultati migliori. Come parte di questo portafoglio, il software IBM SPSS Predictive Analytics consente alle aziende di prevedere gli eventi futuri e di agire tempestivamente in modo da migliorare i risultati delle attività aziendali. Le aziende, gli enti governativi e le università di tutto il mondo si affidano alla tecnologia IBM SPSS perché rappresenta un vantaggio concorrenziale in termini di attrazione, retention e aumento dei clienti, riducendo al tempo stesso le frodi e limitando i rischi. Incorporando il software IBM SPSS nelle attività quotidiane, le aziende diventano imprese in grado di effettuare previsioni e di gestire e automatizzare le decisioni, per raggiungere gli obiettivi aziendali e vantaggi tangibili sulla concorrenza. Per ulteriori informazioni o per contattare un rappresentante, visitare il sito http://www.ibm.com/spss. Supporto tecnico Il supporto tecnico è a disposizione dei clienti che dispongono di un contratto di manutenzione. I clienti possono contattare il supporto tecnico per richiedere assistenza per l utilizzo di IBM Corp. o per l installazione di uno degli ambienti hardware supportati. Per contattare il supporto tecnico, visitare il sito Web IBM Corp. all indirizzo http://www.ibm.com/support. Ricordare che durante la richiesta di assistenza sarà necessario fornire i dati di identificazione personali, i dati relativi alla propria società e il numero del contratto di manutenzione. Copyright IBM Corporation 1994, 2011. iii

Contenuto 1 Informazioni su IBM SPSS Modeler 1 IBMSPSSModelerServer... 1 OpzionidiIBMSPSSModeler... 2 IBMSPSSTextAnalytics... 2 DocumentazionediIBMSPSSModeler... 2 Esempidiapplicazioni... 4 CartellaDemos... 5 2 Mining in-database 6 Panoramicasullamodellazionedidatabase... 6 Requisitinecessari... 7 Costruzionedelmodello... 8 DataPreparation... 8 Calcolo delpunteggiodeimodelli... 9 Esportazioneesalvataggiodimodellididatabase...10 Uniformitàdeimodelli...11 VisualizzazioneedesportazionedicodiceSQLgenerato...11 3 Modellazione di database con Microsoft Analysis Services 12 IBMSPSSModelereMicrosoftAnalysisServices...12 Requisiti per l integrazione con Microsoft Analysis Services......................... 13 Attivazione dell integrazione con Analysis Services................................ 15 CreazionidimodelliconAnalysisServices...18 GestionedimodellidiAnalysisServices...19 Impostazionicomuniatuttiinodideglialgoritmi...20 OpzioniavanzateAlberodecisionaleMS...23 OpzioniavanzateRaggruppamentoclusterMS...24 OpzioniavanzateBayesnaiveMS...25 OpzioniavanzateRegressionelineareMS...26 OpzioniavanzateReteneuraleMS...27 OpzioniavanzateRegressionelogisticaMS...28 NodoRegolediassociazioneMS...28 NodoSeriestoricaMS...30 NodoClusterdisequenzeMS...33 CalcolodelpunteggioperimodellidiAnalysisServices...36 ImpostazionicomuniatuttiimodellidiAnalysisServices...37 iv

InsiemedimodelliSeriestoricaMS...40 InsiemidimodelliClusterdisequenzeMS...44 Esportazionedimodelliegenerazionedinodi...44 EsempidiminingconAnalysisServices...44 Streamdiesempio:Alberidecisionali...44 4 Modellazione di database con Oracle Data Mining 53 InformazionisuOracleDataMining...53 Requisiti per l integrazione con Oracle............................................. 53 Attivazione dell integrazione con Oracle............................................ 54 CreazionedimodelliconOracleDataMining...57 OpzionidellaschedaServerdeimodelliOracle...58 Costiclassificazioneerrata...60 BayesnaiveOracle...61 OpzionidelmodelloBayesnaive...61 OpzioniavanzatediBayesnaive...62 BayesadattiviOracle...63 OpzionidelmodelloBayesadattivo...64 OpzioniavanzatediBayesadattivo...65 SupportVectorMachineOracle(SVM)...66 OpzionidelmodelloSVMOracle...66 OpzioniavanzatediSVMOracle...68 OpzioniPesidiSVMOracle...69 ModellilinearigeneralizzatiOracle(GLM)...70 OpzionidelmodelloGLMOracle...71 OpzioniavanzatediGLMOracle...72 OpzioniPesidiGLMOracle...73 AlberodecisionaleOracle...74 OpzionidellaschedaModelloperilnodoAlberodecisionale...75 OpzioniavanzateAlberodecisionale...76 O-ClusterOracle...77 OpzionidelmodelloO-Cluster...77 OpzioniavanzatediO-Cluster...78 K-MeansOracle...78 OpzionidelmodelloK-Means...79 OpzioniavanzatedelnodoK-Means...80 NMFdiOracle(fattorizzazioneamatricenonnegativa)...81 OpzionidelmodelloNMF...81 OpzioniavanzateNMF...82 v

AprioriOracle...83 OpzionideicampiApriori...83 OpzionidelmodelloApriori...86 OracleMDL(Lunghezzadescrizioneminima)...87 OpzionidelmodelloMDL...88 ImportanzaattributoOracle(AI)...89 OpzionimodelloAI...89 OpzionidiselezioneAI...90 Scheda Modello dell insieme di modelli AI....................................... 90 GestionedeimodelliOracle...92 Scheda Server dell insieme di modelli Oracle..................................... 92 Scheda Riepilogo dell insieme di modelli Oracle................................... 93 Scheda Impostazioni dell insieme di modelli Oracle................................ 93 ElencodeimodelliOracle...94 OracleDataMiner...95 Preparazionedeidati...97 EsempidiOracleDataMining...97 Streamdiesempio:Caricamentodati...98 Streamdiesempio:ExploreData...99 Streamdiesempio:BuildModel... 100 Streamdiesempio:Valutazionemodello... 101 Streamdiesempio:Deploymentmodello... 104 5 Modellazione di database con IBM InfoSphere Warehouse 105 IBMInfoSphereWarehouseeIBMSPSSModeler... 105 Requisiti per l integrazione con InfoSphere Warehouse............................ 105 Attivazione dell integrazione con InfoSphere Warehouse........................... 106 CreazionedimodelliconInfoSphereWarehouseDataMining... 113 Calcolodelpunteggioedeploymentdeimodelli... 114 GestionedeimodelliDB2... 115 Elencodeimodelliin-database... 116 Visualizzazionedeimodelli... 117 Esportazionedimodelliegenerazionedinodi... 117 Impostazionideinodicomuniatuttiglialgoritmi... 117 AlberodecisionaleISW... 121 OpzionidellaschedaModelloperilnodoAlberodecisionaleISW... 122 OpzioniavanzateAlberodecisionaleISW... 123 AssociazioneISW... 123 OpzionidellaschedaModelloperilnodoAssociazioneISW... 124 Opzioni della scheda Opzioni avanzate per il nodo Associazione ISW.................. 125 vi

OpzionidellaschedaTassonomiaperISW... 126 SequenzaISW... 129 OpzionidellaschedaModelloperilnodoSequenzaISW... 130 OpzionidellaschedaOpzioniavanzateperilnodoSequenzaISW... 131 RegressioneISW... 132 OpzionidellaschedaModelloperilnodoRegressioneISW... 134 OpzioniavanzatedelnodoRegressioneISW... 135 RaggruppamentoclusterISW... 137 Opzioni della scheda Modello per il nodo Raggruppamento cluster ISW............... 138 OpzioniavanzatedelnodoRaggruppamentoclusterISW... 139 BayesnaiveISW... 141 OpzionidelmodelloBayesnaiveISW... 142 RegressionelogisticaISW... 142 OpzionidelmodellodiRegressionelogisticaISW... 143 SeriestoricaISW... 143 OpzioniCampiSeriestoricaISW... 144 OpzionidelmodellodiseriestoricaISW... 145 OpzioniavanzateperleseriestoricheISW... 146 VisualizzazionedeimodellidiseriestoricaISW... 146 InsiemidimodellidiISWDataMining... 148 Scheda Server dell insieme di modelli ISW..................................... 148 Scheda Impostazioni dell insieme di modelli ISW................................. 149 Scheda Riepilogo dell insieme di modelli ISW................................... 150 EsempidiISWDataMining... 151 Streamdiesempio:Caricamentodati... 151 Streamdiesempio:ExploreData... 151 Streamdiesempio:BuildModel... 153 Streamdiesempio:Valutazionemodello... 154 Streamdiesempio:Deploymentmodello... 156 6 Modellazione di database con IBM Netezza Analytics 158 IBMSPSSModelereIBMNetezzaAnalytics... 158 Requisiti per l integrazione con IBM Netezza Analytics................................ 158 Attivazione dell integrazione con IBM Netezza Analytics.............................. 159 CreazionedimodelliconIBMNetezzaAnalytics... 161 OpzionidellaschedaServerdeimodelliNetezza... 161 ModelliNetezza-OpzioniModello... 163 AlberidecisionalidiNetezza... 164 Pesidelleistanzeedelleclassi... 164 vii

Opzioni dei campi dell albero decisionale di Netezza.............................. 165 Opzioni di creazione dell albero decisionale di Netezza............................ 166 NetezzaK-Means... 171 OpzionideicampiK-MeansdiNetezza... 171 OpzionidicreazioneK-MeansdiNetezza... 173 GestionedimodellidiIBMNetezzaAnalytics... 174 InsiemidimodelliAlberodecisionalediNetezza... 174 InsiemedimodelliK-MeansdiNetezza... 177 Appendice A Note 181 Indice 184 viii

Informazioni su IBM SPSS Modeler Capitolo 1 IBM SPSS Modeler è un insieme di strumenti di data mining che consente di sviluppare rapidamente modelli predittivi con l ausilio di competenze aziendali e di eseguirne il deployment nelle operazioni aziendali per migliorare i processi decisionali. Progettato secondo il modello CRISP-DM conforme agli standard di settore, SPSS Modeler supporta l intero processo di data mining, dai dati a risultati aziendali migliori. SPSS Modeler offre numerosi metodi di modellazione ricavati dall apprendimento automatico, dall intelligenza artificiale e dalla statistica. I metodi disponibili nella palette Modelli consentono di ricavare nuove informazioni dai dati e di sviluppare modelli predittivi. Ogni metodo ha determinati punti di forza e si presta meglio per particolari tipi di problemi. SPSS Modeler può essere acquistato come prodotto autonomo oppure utilizzato in combinazione con SPSS Modeler Server. È inoltre disponibile una serie di opzioni, come illustrato nelle sezioni seguenti. Per ulteriori informazioni, vederehttp://www.ibm.com/software/analytics/spss/products/modeler/. IBM SPSS Modeler Server SPSS Modeler utilizza un architettura client/server per distribuire le richieste di operazioni che utilizzano molte risorse a potenti componenti software server, con un conseguente miglioramento della performance su insiemi di dati di grandi dimensioni. Oltre a quelli elencati di seguito, potrebbero essere disponibili altri prodotti e aggiornamenti. Per ulteriori informazioni, vederehttp://www.ibm.com/software/analytics/spss/products/modeler/. SPSS Modeler. SPSS Modeler è una versione del prodotto completa nelle funzioni, che viene installata ed eseguita sul desktop dell utente. È possibile eseguirla in modalità locale come prodotto autonomo oppure in modalità distribuita assieme a IBM SPSS Modeler Server per ottenere una migliore performance su insiemi di dati di grandi dimensioni. SPSS Modeler Server. SPSS Modeler Server viene eseguito continuamente in modalità di analisi distribuita assieme a una o più installazioni di IBM SPSS Modeler. Una configurazione di questo tipo consente di ottenere performance superiori quando si lavora su insiemi di dati di grandi dimensioni, in quanto le operazioni che richiedono un utilizzo consistente della memoria possono essere eseguite sul server senza necessità di scaricare i dati sul computer client. SPSS Modeler Server supporta inoltre funzionalità di ottimizzazione SQL e modellazione in-database, con ulteriori vantaggi in termini di prestazioni e grado di automazione. Per eseguire un analisi deve essere disponibile almeno un installazione SPSS Modeler. Copyright IBM Corporation 1994, 2011. 1

2 Capitolo 1 Opzioni di IBM SPSS Modeler I seguenti componenti e funzionalità possono essere acquistati separatamente e concessi in licenza per l utilizzo con SPSS Modeler. Tenere presente che potrebbero rendersi disponibili anche prodotti e aggiornamenti aggiuntivi. Per ulteriori informazioni, vederehttp://www.ibm.com/software/analytics/spss/products/modeler/. Accesso a SPSS Modeler Server per una maggiore scalabilità e prestazioni migliori su insiemi di dati di grandi dimensioni, nonché per il supporto di funzionalità di ottimizzazione SQL e modellazione in-database. SPSS Modeler Solution Publisher, per il calcolo automatico o in tempo reale del punteggio al di fuori dall ambiente di SPSS Modeler. Per ulteriori informazioni, vedere l'argomento IBM SPSS Modeler Solution Publisher in il capitolo 2 in IBM SPSS Modeler 14.2 Solution Publisher. Adattatori per il deployment in IBM SPSS Collaboration and Deployment Services o nell applicazione thin-client IBM SPSS Modeler Advantage. Per ulteriori informazioni, vedere l'argomento Archiviazione e deployment di oggetti di IBM SPSS Collaboration and Deployment Services Repository in il capitolo 9 in Manuale dell utente di IBM SPSS Modeler 14.2. IBM SPSS Text Analytics IBM SPSS Text Analytics è un componente aggiuntivo completamente integrato per SPSS Modeler che utilizza tecnologie linguistiche avanzate e di Natural Language Processing (NLP) per elaborare rapidamente una grande varietà di dati di testo non strutturati, estrarre e organizzare i concetti chiave e raggruppare questi concetti in categorie. È quindi possibile combinare i concetti e le categorie estratti con dati strutturati esistenti, per esempio dati demografici, e applicarli alla modellazione utilizzando la suite completa degli strumenti di data mining di IBM SPSS Modeler per prendere decisioni migliori e più mirate. Il nodo Text Mining offre funzioni di modellazione di concetti e categorie nonché un workbench interattivo in cui è possibile eseguire esplorazioni avanzate di collegamenti e cluster di testo, creare categorie personalizzate e rifinire i modelli di risorse linguistiche. Sono supportati numerosi formati di importazione, inclusi blog e altre sorgenti basate sul Web. Sono inclusi inoltre modelli, librerie e dizionari personalizzati per domini specifici, quali CRM e genomica. Nota: per l accesso a questo componente, è necessaria una licenza distinta. Per ulteriori informazioni, vederehttp://www.ibm.com/software/analytics/spss/products/modeler/. Documentazione di IBM SPSS Modeler La documentazione completa nel formato guida in linea è disponibile nel menu Aiuto di SPSS Modeler. Sono incluse la documentazione per SPSS Modeler, SPSS Modeler Server e SPSS Modeler Solution Publisher, nonché la Guida alle applicazioni e altro materiale di supporto.

Informazioni su IBM SPSS Modeler 3 La documentazione completa in formato PDF dei singoli prodotti è disponibile nella cartella \Documentation del DVD di ciascun prodotto. Manuale dell utente di IBM SPSS Modeler. Introduzione generale all utilizzo di SPSS Modeler che illustra come creare stream di dati, gestire valori mancanti, generare espressioni CLEM, utilizzare progetti e report e assemblare stream per il deployment tramite IBM SPSS Collaboration and Deployment Services, le applicazioni predittive o IBM SPSS Modeler Advantage. IBM SPSS Modeler Source, Process, and Output Nodes. Descrizioni di tutti i nodi utilizzati per leggere, elaborare e generare dati di output in vari formati, ovvero di nodi ad eccezione dei nodi Modelli. IBM SPSS Modeler Nodi Modelli. Descrizioni di tutti i nodi utilizzati per creare modelli di data mining. IBM SPSS Modeler offre numerosi metodi di modellazione ricavati dall apprendimento automatico, dall intelligenza artificiale e dalla statistica. Per ulteriori informazioni, vedere l'argomento Panoramica sui nodi Modelli in il capitolo 3 in IBM SPSS Modeler 14.2 Nodi Modelli. IBM SPSS Modeler Algorithms Guide. Descrizione dei fondamenti di matematica per i metodi di modellazione utilizzati in SPSS Modeler. IBM SPSS Modeler Guida alle applicazioni. Gli esempi inclusi in questa guida forniscono indicazioni mirate e sintetiche su specifici metodi e tecniche di modellazione. Una versione in linea di questa guida è inoltre disponibile dal menu Aiuto. Per ulteriori informazioni, vedere l'argomento Esempi di applicazioni in Manuale dell utente di IBM SPSS Modeler 14.2. IBM SPSS Modeler Script e automazione. Informazioni sulle modalità di automazione del sistema tramite script, incluse le proprietà che è possibile utilizzare per manipolare nodi estream. IBM SPSS Modeler Deployment Guide. Informazioni sull esecuzione di stream e scenari SPSS Modelercome fasi dell elaborazione di lavori in IBM SPSS Collaboration and Deployment Services Deployment Manager. IBM SPSS Modeler Guida per lo sviluppatore CLEF. CLEF consente di integrare programmi di terze parti (quali routine di elaborazione di dati o algoritmi di modellazione) come nodi in SPSS Modeler. IBM SPSS Modeler Guida alla modellazione in-database. Informazioni sulle modalità per utilizzare al meglio la potenza del database in uso al fine di ottenere prestazioni migliori ed estendere la gamma di funzionalità analitiche tramite algoritmi di terze parti. IBM SPSS Modeler Server e Guida della performance. Informazioni su come configurare e amministrare IBM SPSS Modeler Server. Manuale dell utente di IBM SPSS Modeler Administration Console. Informazioni sull installazione e l utilizzo dell interfaccia utente della console per il monitoraggio e la configurazione di SPSS Modeler Server. La console viene implementata come plug-in dell applicazione Deployment Manager. IBM SPSS Modeler Solution Publisher Guide. SPSS Modeler Solution Publisher è un componente aggiuntivo che consente di pubblicare gli stream al di fuori dell ambiente SPSS Modeler standard. Guida CRISP-DM di IBM SPSS Modeler. Guida passo a passo al data mining tramite la metodologia CRISP-DM con SPSS Modeler.

4 Capitolo 1 Esempi di applicazioni Mentre gli strumenti per il data mining di SPSS Modeler consentono di risolvere un ampia gamma di problemi a livello aziendale e organizzativo, gli esempi di applicazioni forniscono indicazioni mirate e sintetiche su specifici metodi e tecniche di modellazione. Gli insiemi di dati utilizzati negli esempi hanno dimensioni molto più limitate rispetto agli enormi archivi di dati gestiti da alcuni data miner, ma i concetti e i metodi coinvolti sono rapportabili alle applicazioni del mondo reale. È possibile accedere agli esempi facendo clic su Esempi di applicazioni nel menu Aiuto di SPSS Modeler. I file di dati e gli stream di esempio sono installati nella cartella Demos nella directory di installazione del prodotto. Per ulteriori informazioni, vedere l'argomento Cartella Demos in Manuale dell utente di IBM SPSS Modeler 14.2. Esempi di modellazione in-database. VederegliesempinellaIBM SPSS Modeler Guida alla modellazione in-database. Esempi di script. VederegliesempinellaIBM SPSS Modeler Guida per script e automazione.

Informazioni su IBM SPSS Modeler 5 Cartella Demos I file di dati e gli stream di esempio utilizzati negli esempi di applicazioni sono installati nella cartella Demos nella directory di installazione del prodotto. A questa cartella è possibile accedere anche dal gruppo di programmi IBM SPSS Modeler 14.2 nel menu Start di Windows oppure facendo clic su Demos nell elenco delle directory recenti nella finestra di dialogo Apri file. Figura 1-1 Selezione della cartella Demos dall elenco delle directory utilizzate di recente

Mining in-database Capitolo 2 Panoramica sulla modellazione di database IBM SPSS Modeler Server supporta l integrazione con gli strumenti di data mining e di modellazione forniti da sviluppatori di database, quali Oracle Data Miner, IBM DB2 InfoSphere Warehouse e Microsoft Analysis Services. Operando all interno dell applicazione IBM SPSS Modeler è infatti possibile sia creare modelli che calcolarne il punteggio e archiviarli nel database. Ciò consente di combinare le funzionalità analitiche e la semplicità d uso di SPSS Modeler con la potenza e le performance di un database, sfruttando gli algoritmi nativi del database distribuiti da questi fornitori. I modelli vengono creati all interno del database e possono essere successivamente selezionati per calcolarne il punteggio attraverso l interfaccia di SPSS Modeler secondo la procedura standard; se necessario, ne può essere eseguito il deployment attraverso IBM SPSS Modeler Solution Publisher. Gli algoritmi supportati sono elencati nella palette Modelli in-database di SPSS Modeler. L utilizzo di SPSS Modeler per accedere ad algoritmi nativi di database assicura numerosi vantaggi: Gli algoritmi in-database sono spesso strettamente integrati conil server di database e possono offrire performance migliorate. Per i modelli creati e archiviati all interno di database il processo di deployment e di condivisione con tutte le applicazioni in grado di accedere al database è molto più facile da eseguire. Generazione SQL. La modellazione in-database è distinta dalla generazione SQL, altrimenti nota come ottimizzazione SQL o push back SQL, che consente di generare istruzioni SQL per operazioni native di SPSS Modeler che è possibile rinviare al database per migliorare le prestazioni. Per esempio, i nodi Unione, Aggregazione e Seleziona generano tutti codice SQL che può essere rinviato al database per l esecuzione. L utilizzo della generazione SQL in combinazione con la modellazione in-database può generare stream eseguibili dall inizio alla fine nel database, con significativi miglioramenti a livello di prestazioni rispetto agli stream eseguiti in SPSS Modeler. Per ulteriori informazioni, vedere l'argomento Ottimizzazione SQL in il capitolo 6 in IBM SPSS Modeler Server 14.2 Guida della performance e amministrazione. Nota: le funzionalità di modellazione in-database e ottimizzazione SQL richiedono che sul computer IBM SPSS Modeler sia attivata la connettività SPSS Modeler Server. Con questa impostazione attivata, è possibile accedere agli algoritmi di database, restituire codice SQL direttamente da SPSS Modeler e accedere a SPSS Modeler Server. Per verificare lo stato corrente della licenza, fare clic su Informazioni su nel menu Aiuto di SPSS Modeler. Per ulteriori informazioni, vedere l'argomento Connessione a IBM SPSS Modeler Server in il capitolo 3 in Manuale dell utente di IBM SPSS Modeler 14.2. Copyright IBM Corporation 1994, 2011. 6

7 Mining in-database Figura 2-1 Palette Modelli in-database Per informazioni sugli algoritmi supportati, fare riferimento alle sezioni relative ai fornitori specifici riportate di seguito. Figura 2-2 Visualizzatore che fornisce una visualizzazione grafica dei risultati della modellazione con regole di associazione di Microsoft Analysis Services Requisiti necessari Per eseguire la modellazione di database, occorre disporre di quanto elencato di seguito: Una connessione ODBC a un database appropriato, in cui siano installati i componenti analitici richiesti (Microsoft Analysis Services, Oracle Data Miner o IBM DB2 InfoSphere Warehouse).

8 Capitolo 2 In IBM SPSS Modeler la modellazione di database deve essere attivata nella finestra di dialogo Applicazioni di supporto (Strumenti > Applicazioni di supporto). In IBM SPSS Modeler e in IBM SPSS Modeler Server (se utilizzato) le impostazioni Genera SQL e Ottimizzazione SQL devono essere attivate nella finestra di dialogo Opzioni utente. Per ulteriori informazioni, vedere l'argomento Performance/ottimizzazione in il capitolo 4 in IBM SPSS Modeler Server 14.2 Guida della performance e amministrazione. L ottimizzazione SQL non è strettamente necessaria per la corretta operatività del processo di modellazione di database, ma è vivamente consigliata per questioni di performance. Nota: le funzionalità di modellazione in-database e ottimizzazione SQL richiedono che sul computer SPSS Modeler sia attivata la connettività SPSS Modeler Server. Con questa impostazione attivata, è possibile accedere agli algoritmi di database, restituire codice SQL direttamente da SPSS Modeler e accedere a SPSS Modeler Server. Per verificare lo stato corrente della licenza, fare clic su Informazioni su nel menu Aiuto di SPSS Modeler. Per ulteriori informazioni, vedere l'argomento Connessione a IBM SPSS Modeler Server in il capitolo 3 in Manuale dell utente di IBM SPSS Modeler 14.2. Per informazioni dettagliate, vedere le sezioni relative ai fornitori specifici riportate di seguito. Costruzione del modello Il processo di creazione di modelli e di calcolo del relativo punteggio mediante algoritmi di database presenta molte analogie con altri tipi di data mining all interno di IBM SPSS Modeler. Il processo generale di utilizzo di nodi e insiemi di modelli è analogo a qualsiasi altro stream quando si lavora in SPSS Modeler. L unica differenza è rappresentata dal fatto che l elaborazione e la creazione di modelli effettive sono rinviate al database. Per esempio, lo stream riportato di seguito è concettualmente identico ad altri stream di dati in SPSS Modeler. Tuttavia, esegue tutte le operazioni in un database, inclusa la creazione di modelli tramite il nodo Albero decisionale di Microsoft. Quando si esegue lo stream, SPSS Modeler fornisce al database le istruzioni necessarie per creare e archiviare il modello risultante e i dettagli vengono scaricati all interno di SPSS Modeler. Figura 2-3 Stream di esempio sulla modellazione di database, in cui i nodi con ombreggiatura viola indicano l esecuzione in-database Data Preparation Indipendentemente dal fatto che siano utilizzati o meno algoritmi nativi di database, le preparazioni dei dati devono sempre essere rinviate al database quando possibile per migliorare le prestazioni. Se i dati originali sono archiviati nel database, l obiettivo è quello di mantenerli nel database assicurandosi che tutte le operazioni a monte necessarie possano essere convertite in SQL. Questo impedisce che i dati vengano scaricati in IBM SPSS Modeler, evitando un collo di bottiglia che potrebbe vanificare qualsiasi vantaggio, e consentendo all intero stream di essere

9 Mining in-database eseguito nel database. Per ulteriori informazioni, vedere l'argomento Ottimizzazione SQL in il capitolo 6 in IBM SPSS Modeler Server 14.2 Guida della performance e amministrazione. Seidatioriginalinon sono archiviati nel database, sarà comunque possibile utilizzare la modellazione di database. In questo caso, la preparazione dei dati viene effettuata all interno di SPSS Modeler e l insieme dei dati preparato viene automaticamente caricato nel database per la creazione di modelli. Calcolo del punteggio dei modelli I modelli generati da IBM SPSS Modeler mediante il mining in-database differiscono dai normali modelli dell applicazione. Sebbene vengano visualizzati nel manager Modelli come insiemi di modelli generati, costituiscono in effetti modelli remoti memorizzati nel server di database o di data mining remoto. Quelli visibili in SPSS Modeler sono semplicemente dei riferimenti a tali modelli remoti. In altri termini, il modello di SPSS Modeler visualizzato è un modello vuoto, che contiene informazioni come il nome host del server di database, il nome del database e il nome del modello. Si tratta di una distinzione importante da comprendere per la visualizzazione e il calcolo del punteggio dei modelli creati utilizzando gli algoritmi nativi di database. Figura 2-4 Insieme di modelli generati per alberi decisionali Microsoft Una volta creato un nuovo modello, è possibile aggiungerlo allo stream per il calcolo del punteggio seguendo la prassi utilizzata per qualsiasi altro modello generato in SPSS Modeler. Tutti i calcoli di punteggio vengono eseguiti all interno del database, anche se le operazioni a monte vengono eseguite altrove. (Le operazioni a monte possono essere rimandate al database per migliorare le performance, ma questo non è necessario perché avvenga il calcolo del punteggio.) Nella maggior parte dei casi, è anche possibile sfogliare il modello generato utilizzando il browser standard fornito con il database. Per sfogliare e calcolare i punteggi, è necessario disporre di una connessione live al server su cui vengono eseguiti Oracle Data Miner, IBM DB2 InfoSphere Warehouse oppure Microsoft Analysis Services. Visualizzazione dei risultati e specifica delle impostazioni Per visualizzare i risultati e specificare le impostazioni inerenti al calcolo del punteggio, fare doppio clic sul modello nell area di disegno dello stream. In alternativa, è possibile fare clic con il pulsante destro del mouse sul modello e scegliere Visualizza o Modifica. Le impostazioni specifiche dipendono dal tipo di modello.

10 Capitolo 2 Esportazione e salvataggio di modelli di database I modelli e i riepiloghi del database possono essere esportati dal visualizzatore modelli con la stessa procedura impiegata per altri modelli creati in IBM SPSS Modeler, utilizzando le opzioni disponibili nel menu File. Figura 2-5 Esportazione di un riepilogo di modello di albero decisionale Microsoft come HTML E Dal menu File del visualizzatore modelli scegliere una qualsiasi delle seguenti opzioni: Esporta testo esporta il riepilogo di modello in un file di testo Esporta HTML esporta il riepilogo di modello in un file HTML Esporta PMML (supportata solo per i modelli IBM DB2 IM) esporta il modello come PMML (Predictive Model Markup Language), che può essere utilizzato con altri software compatibili con PMML. Per ulteriori informazioni, vedere l'argomento Importazione ed esportazione di modelli come PMML in il capitolo 10 in Manuale dell utente di IBM SPSS Modeler 14.2. Nota: è anche possibile salvare un modello generato scegliendo Salva nodo dal menu File. Per ulteriori informazioni, vedere l'argomento Esplorazione degli insiemi di modelli in il capitolo 3 in IBM SPSS Modeler 14.2 Nodi Modelli.

11 Mining in-database Uniformità dei modelli Per ogni modello di database generato, IBM SPSS Modeler archivia una descrizione della relativa struttura insieme a un riferimento al modello con lo stesso nome memorizzato nel database. Nella scheda Server di un modello generato viene visualizzata una chiave univoca generata specificamente per il modello in questione che corrisponde al modello effettivo nel database. Figura 2-6 Chiave del modello generato e opzioni di controllo SPSS Modeler utilizza queste chiavi generate casualmente per controllare l uniformità dei modelli. La chiave viene archiviata nella descrizione del modello al momento della creazione. È consigliabile verificare la corrispondenza delle chiavi prima di eseguire uno stream di deployment. E Fare clic sul pulsante Controllo per verificare l uniformità del modello archiviato nel database confrontando la relativa descrizione con la chiave casuale memorizzata da SPSS Modeler. Se non è possibile trovare il modello di database o la chiave non corrisponde, verrà segnalato un errore. Visualizzazione ed esportazione di codice SQL generato Prima di procedere all esecuzione, è possibile visualizzare un anteprima del codice SQL, il che può essere molto utile ai fini del debug. Per ulteriori informazioni, vedere l'argomento Anteprima disqlgeneratoinilcapitolo6inibm SPSS Modeler Server 14.2 Guida della performance e amministrazione.

Modellazione di database con Microsoft Analysis Services Capitolo 3 IBM SPSS Modeler e Microsoft Analysis Services IBM SPSS Modeler supporta l integrazione con Microsoft SQL Server Analysis Services. Questa funzionalità viene implementata sotto forma di nodi Modelli in SPSS Modeler ed è disponibile nella palette Modelli in-database. Se la palette non è visibile, è possibile attivarla abilitando l integrazione con MS Analysis Services, disponibile nella scheda Microsoft della finestra di dialogo Applicazioni di supporto. Per ulteriori informazioni, vedere l'argomento Attivazione dell integrazione con Analysis Services a pag. 15. SPSS Modeler supporta l integrazione con i seguenti algoritmi di Analysis Services: Alberi decisionali Raggruppamento tramite cluster Regole di associazione Bayes naive Regressione lineare Rete neurale Regressione logistica Serie storiche Cluster di sequenze Nel seguente diagramma è illustrato il flusso di dati dal client verso il server nei casi in cui il mining in-database è gestito da IBM SPSS Modeler Server. La creazione di modelli viene eseguita mediante Analysis Services e il modello risultante è archiviato dallo stesso strumento. Un riferimento a tale modello viene conservato negli stream di SPSS Modeler. Il modello viene quindi scaricato da Analysis Services su Microsoft SQL Server o SPSS Modeler per il calcolo del punteggio. Copyright IBM Corporation 1994, 2011. 12

13 Modellazione di database con Microsoft Analysis Services Figura 3-1 Flusso di dati tra IBM SPSS Modeler, Microsoft SQL Server e Microsoft Analysis Services durante la creazione di modelli Nota: SPSS Modeler Server non è richiesto, benché possa essere utilizzato. Il client IBM SPSS Modeler è in grado di elaborare autonomamente i calcoli del mining in-database. Requisiti per l integrazione con Microsoft Analysis Services Di seguito sono riportati i prerequisiti richiesti per eseguire la modellazione in-database utilizzando gli algoritmi di Analysis Services con IBM SPSS Modeler. Per garantire che queste condizioni vengano soddisfatte, può essere necessario consultare l amministratore di sistema. Esecuzione di IBM SPSS Modeler in un installazione di IBM SPSS Modeler Server (modalità distribuita) su Windows. Le piattaforme UNIX non sono supportate in questa integrazione con Analysis Services. Importante: gli utenti di SPSS Modeler devono configurare una connessione ODBC utilizzando il driver SQL Native Client disponibile sul sito Web di Microsoft all indirizzo riportato di seguito in Requisiti aggiuntivi di SPSS Modeler Server. Il driver fornito con IBM SPSS Data Access Pack, sebbene generalmente consigliato per altri usi con SPSS Modeler, non è raccomandato per questo scopo. È necessario configurare il driver per l uso di SQL Server con l opzione Autenticazione integrata di Windows attivata, poiché SPSS Modeler non supporta l autenticazione SQL Server. Per domande sulla creazione o l impostazione di autorizzazioni per sorgenti dati ODBC, rivolgersi all amministratore del database. È necessario aver installato sul computer SQL Server 2005 o 2008, sebbene non necessariamente sullo stesso host di SPSS Modeler. Gli utenti di SPSS Modeler devono disporre delle autorizzazioni richieste per leggere e scrivere dati nonché per creare ed eliminare tabelle e visualizzazioni.

14 Capitolo 3 Nota: si consiglia l uso di SQL Server Enterprise Edition. La versione Enterprise Edition offre una flessibilità maggiore fornendo parametri avanzati che consentono di perfezionare i risultati degli algoritmi. La versione Standard Edition fornisce gli stessi parametri ma non consente agli utenti di modificare alcuni dei parametri avanzati. È necessario aver installato Microsoft SQL Server Analysis Services sullo stesso host di SQL Server. Requisiti aggiuntivi di IBM SPSS Modeler Server Per utilizzare gli algoritmi di Analysis Services con SPSS Modeler Server, è necessario aver installato sull host di SPSS Modeler Server i seguenti componenti Nota: se SQL Server è installato sullo stesso host di SPSS Modeler Server, tali componenti saranno già disponibili. Microsoft.NET Framework Redistributable Package versione 2.0 (x86) Microsoft Core XML Services (MSXML) 6.0 Provider OLE DB Microsoft SQL Server 2008 Analysis Services 10.0 (avere cura di selezionare la versione corretta per il proprio sistema operativo) Microsoft SQL Server 2008 Native Client (avere cura di selezionare la versione corretta per il proprio sistema operativo) Per scaricare questi componenti, accedere a www.microsoft.com/downloads, cercare.net Framework o (per tutti gli altri componenti) SQL Server Feature Pack e selezionare il pacchetto più recente per la propria versione di SQL Server. L esecuzione di tali componenti potrebbe richiedere l installazione di altri pacchetti, che dovrebbero essere disponibili anch essi nell area Download del sito Web di Microsoft. Requisiti aggiuntivi di IBM SPSS Modeler Per utilizzare gli algoritmi di Analysis Services con SPSS Modeler, è necessario che siano installati gli stessi componenti riportati in precedenza, con l aggiunta dei seguenti sul client: Microsoft SQL Server 2008 Datamining Viewer Controls (avere cura di selezionare la versione corretta per il proprio sistema operativo), che richiede inoltre: Microsoft ADOMD.NET Per scaricare questi componenti, accedere a www.microsoft.com/downloads, cercare SQL Server Feature Pack e selezionare il pacchetto più recente per la propria versione di SQL Server. Nota: le funzionalità di modellazione in-database e ottimizzazione SQL richiedono che sul computer SPSS Modeler sia attivata la connettività SPSS Modeler Server. Con questa impostazione attivata, è possibile accedere agli algoritmi di database, restituire codice SQL direttamente da SPSS Modeler e accedere a SPSS Modeler Server. Per verificare lo stato corrente della licenza, fare clic su Informazioni su nel menu Aiuto di SPSS Modeler. Per ulteriori informazioni, vedere l'argomento Connessione a IBM SPSS Modeler Server in il capitolo 3 in Manuale dell utente di IBM SPSS Modeler 14.2.

Attivazione dell integrazione con Analysis Services 15 Modellazione di database con Microsoft Analysis Services Per attivare l integrazione di IBM SPSS Modeler con Analysis Services, è necessario configurare SQL Server e Analysis Services e creare una sorgente ODBC, quindi attivare l integrazione nella finestra di dialogo Applicazioni di supporto di SPSS Modeler e, infine, attivare la generazione e l ottimizzazione SQL. Nota: è necessario disporre di Microsoft SQL Server e di Microsoft Analysis Services. Per ulteriori informazioni, vedere l'argomento Requisiti per l integrazione con Microsoft Analysis Services a pag. 13. Configurazione di SQL Server Configurare SQL Server in modo da consentire che il calcolo del punteggio sia eseguito all interno del database. E Creare la seguente chiave del Registro di sistema sul computer host SQL Server: HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\MSSQLServer\Providers\MSOLAP E Aggiungere quindi alla chiave il seguente valore DWORD: AllowInProcess 1 E Riavviare SQL Server dopo aver apportato la modifica. Configurazione di Analysis Services Prima che SPSS Modeler possa comunicare con Analysis Services, è necessario configurare manualmente due impostazioni nella finestra di dialogo Proprietà di Analysis Server: E E E E Accedere ad Analysis Server tramite MS SQL Server Management Studio. Accedere alla finestra di dialogo Proprietà facendo clic con il pulsante destro sul nome del server e scegliendo Proprietà. Selezionare la casella di controllo Mostra proprietà (tutte) avanzate. Modificare le seguenti proprietà: Modificare il valore di DataMining\AllowAdHocOpenRowsetQueries su True (il valore di default è False). Modificare il valore di DataMining\AllowProvidersInOpenRowset con [all] (non esiste un valore di default). Creazione di un DSN ODBC per SQL Server Per leggere o scrivere su un database, occorre che una sorgente dati ODBC sia installata e configurata per il database in questione, con le relative autorizzazioni di lettura e scrittura. È necessario disporre del driver ODBC Microsoft SQL Native Client che viene installato automaticamente con SQL Server. Il driver fornito con IBM SPSS Data Access Pack, sebbene generalmente consigliato per altri usi con SPSS Modeler, non è raccomandato per questo scopo.

16 Capitolo 3 Se SPSS Modeler e SQL Server risiedono su host diversi, è possibile scaricare il driver ODBC Microsoft SQL Native Client. Per ulteriori informazioni, vedere l'argomento Requisiti per l integrazione con Microsoft Analysis Services a pag. 13. Per domande sulla creazione o l impostazione di autorizzazioni per sorgenti dati ODBC, rivolgersi all amministratore del database. E E Con il driver ODBC Microsoft SQL Native Client, creare un DSN ODBC che punta al database SQL Server utilizzato nel processo di data mining. Per le restanti impostazioni del driver, è necessario utilizzare le impostazioni di default. Assicurarsi che per il DSN sia selezionata l autenticazione integrata di Windows. Se IBM SPSS Modeler e IBM SPSS Modeler Server sono in esecuzione su host diversi, creare lo stesso DSN ODBC su ogni host. Assicurarsi di utilizzare lo stesso nome DSN su ogni host. Attivazione dell integrazione di Analysis Services in IBM SPSS Modeler Per consentire a SPSS Modeler di utilizzare Analysis Services, è innanzitutto necessario specificare le informazioni sul server nella finestra di dialogo Applicazioni di supporto. E DaimenudiSPSSModelerscegliere: Strumenti > Opzioni > Applicazioni di supporto Figura 3-2 Finestra di dialogo Applicazioni di supporto E Fare clic sulla scheda Microsoft.

17 Modellazione di database con Microsoft Analysis Services Attiva integrazione di Microsoft Analysis Services. Selezionare questa opzione per aggiungere la scheda Modelli database alle palette di nodi nella parte inferiore della finestra di SPSS Modeler. È possibile utilizzare tale scheda per accedere a nodi di Analysis Services, per esempio al nodo Modelli Albero decisionale MS. Figura 3-3 Scheda Modelli database Host di Analysis Server. Specificare il nome del computer su cui è in esecuzione Analysis Services. Database di Analysis Server. Selezionare il database desiderato facendo clic sul pulsante con i puntini di sospensione (...) che consente di aprire una sottofinestra di dialogo in cui è possibile scegliere tra i database disponibili. L elenco contiene i database disponibili per il server Analysis specificato. Poiché Microsoft Analysis Services archivia i modelli di data mining all interno di database denominati, è necessario selezionare il database appropriato in cui vengono archiviati i modelli Microsoft creati da SPSS Modeler. Connessione SQL Server. Specificare le informazioni DSN utilizzate dal database SQL Server per archiviare i dati passati ad Analysis Server. Scegliere la sorgente dati ODBC che verrà utilizzata per fornire i dati necessari per la creazione di modelli di data mining Analysis Services. Se si creano modelli Analysis Services a partire da dati forniti all interno di file piatti o sorgenti dati ODBC, i dati verranno automaticamente caricati in una tabella temporanea creata nel database SQL Server al quale punta la sorgente dati ODBC. Avvisa prima di sovrascrivere un modello di data mining. Selezionare questa opzione per assicurarsi che i modelli archiviati nel database non vengano sovrascritti da SPSS Modeler senza preavviso. Nota: Le impostazioni specificate nella finestra di dialogo Applicazioni di supporto possono essere sovrascritte all interno di vari nodi di Analysis Services. Attivazione di generazione e ottimizzazione SQL E DaimenudiSPSSModelerscegliere: Strumenti>Opzioni>Opzioniutente

18 Capitolo 3 Figura 3-4 Impostazioni di ottimizzazione E E E Fare clic sulla scheda Ottimizzazione. Confermare che l opzione Genera SQL è attivata. Questa impostazione è necessaria per il corretto funzionamento della modellazione di database. Selezionare Ottimizza generazione SQL e Ottimizza altre esecuzioni (queste due opzioni non sono strettamente necessarie, tuttavia se ne consiglia la selezione per ottenere performance ottimizzate). Per ulteriori informazioni, vedere l'argomento Impostazione delle opzioni di ottimizzazione in il capitolo 12 in Manuale dell utente di IBM SPSS Modeler 14.2. Creazioni di modelli con Analysis Services La creazione di modelli di Analysis Services richiede che l insieme di dati addestramento sia posizionato in una tabella o visualizzazione all interno del database SQL Server. Se i dati non sono ubicati in SQL Server o devono essere elaborati in IBM SPSS Modeler come parte del processo di preparazione dei dati che non è possibile eseguire in SQL Server, tali dati vengono automaticamente caricati in una tabella temporanea di SQL Server prima della creazione dei modelli.

Modellazione di database con Microsoft Analysis Services 19 Gestione di modelli di Analysis Services La creazione di un modello di Analysis Services tramite IBM SPSS Modeler comporta la creazione di un modello in SPSS Modeler e la creazione o la sostituzione di un modello nel database SQL Server. Il modello di SPSS Modeler fa riferimento al contenuto di un modello di database archiviato in un server di database. SPSS Modeler consente di eseguire un controllo dell uniformità archiviando una stringa identica con la chiave del modello generato sia nel modello SQL Server che nel modello di SPSS Modeler. Il nodo Modelli Albero decisionale MS è utilizzato nella modellazione predittiva di attributi sia categoriali che continui. Per gli attributi categoriali, il nodo esegue previsioni in base alle relazioni tra le colonne di input in un insieme di dati. Per esempio, in uno scenario per prevedere quali clienti è probabile che acquistino una bicicletta, se nove su dieci clienti più giovani acquistano una bicicletta, ma solo due su dieci clienti più anziani la acquistano, il nodo desume che l età sia un buon predittore dell acquisto di biciclette. L albero decisionale esegue previsioni in base a questa tendenza verso un particolare risultato. Per gli attributi continui, l algoritmo utilizza la regressione lineare per stabilire dove l albero decisione si suddivide. Se più di una colonna è impostata come prevedibile, o se i dati di input contengono una tabella nidificata che è impostata come prevedibile, il nodo genera un albero decisionale separato per ogni colonna prevedibile. Il nodo Modelli Raggruppamento cluster MS utilizza tecniche iterative per raggruppare i casi di un insieme di dati in cluster contenenti caratteristiche simili. Questi raggruppamenti sono utili per l esplorazione dei dati, l individuazione di anomalie nei dati e la creazione di previsioni. I modelli di raggruppamento tramite cluster individuano le relazioni di un insieme di dati che non potrebbero essere derivate logicamente dall osservazione casuale. Per esempio, è possibile comprendere logicamente che le persone che si recano al lavoro in bicicletta in genere non abitano molto distante dal posto di lavoro. Tuttavia, l algoritmo è in grado di trovare altre caratteristiche relative ai pendolari della bicicletta che non sono così ovvie. Il nodo di raggruppamento cluster differisce dagli altri nodi di data mining in quanto non è specificato alcun campo obiettivo. Il nodo di raggruppamento cluster addestra il modello partendo strettamente dalla relazione esistente nei dati e dai cluster identificati dal nodo. Il nodo Modelli Regole di associazione MS è utile per i motori di raccomandazioni. Un motore di raccomandazioni consiglia i prodotti ai clienti in base agli elementi già acquistati o per i quali hanno mostrato un interesse. I modelli di associazione vengono costruiti sulla base di insiemi di dati che contengono identificatori sia per i singoli casi che per gli elementi contenuti nei casi. Un gruppo di elementi di un caso viene definito insieme di elementi. Un modello di associazione è costituito da una serie di insiemi di elementi e dalle regole che descrivono come questi elementi sono raggruppati all interno dei casi. Le regole individuate dall algoritmo possono essere utilizzate per prevedere i probabili acquisti futuri di un cliente, in base agli elementi già presenti nel suo carrello. Il nodo Modelli Bayes naive MS calcola la probabilità condizionale tra i campi obiettivo e predittore e presume che le colonne siano indipendenti. Il modello viene definito naïve perché considera tutte le variabili di previsione proposte come indipendenti l una dall altra. Questo metodo è meno intenso dal punto di vista computazionale rispetto agli altri algoritmi Analysis Services e pertanto è utile per scoprire rapidamente le relazioni durante le fasi preliminari di modellazione. Questo nodo può essere utile per effettuare esplorazioni iniziali dei dati e successivamente applicare i risultati per creare modelli aggiuntivi con altri nodi che possono richiedere un tempo di calcolo più lungo ma fornire risultati più precisi.