Data Mining applicato ai sistemi informativi, una panoramica dei principali algoritmi

Transcript

1 Università degli Studi di Milano Polo Didattico e di Ricerca di Crema Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Sistemi Informativi Data Mining applicato ai sistemi informativi, una panoramica dei principali algoritmi Studenti: Massimo Manara Andrea Gobbi Docente del corso: Enrico Spoletini Anno Accademico 2005/2006

2 ..

3 Indice 3 Indice 1 Introduzione 4 2 Cosa è il Data Mining Un pò di storia Interdisciplinare Il processo Alcune tecniche Mining association rules Alberi di decisione GA - Algoritmi genetici Software CRM - Customers Oriented 14 5 Quali standard 15 6 E la Privacy? 16 A Articolo 17 A.1 Il data mining non serve per sconfiggere il terrorismo, ma si diffonde in Usa Bibliografia 20

4 4 1 Introduzione 1 Introduzione In ogni momento della nostra giornata siamo assaliti da moltissimi dati ed informazioni è importante tuttavia definire nel modo più chiaro possibile la distinzione tra dato ed informazione: Dato 1 : è qualcosa che possiamo vedere, ascoltare; per fare un esempio, un dato può essere un libro. Informazione 2 : l informazione, ci dà qualcosa in più sul dato; nell esempio fatto prima l informazione del dato libro potrebbe essere il titolo, l editore, il numero di pagine del libro [7]. Il data mining è un processo tramite il quale è possibile sapere sulla base di molti dati gli andamenti delle vendite, delle offerte; nel caso di un supermercato. Questa tecnica, può inoltre essere applicata a moltissimi campi; ed a sua volta fà uso di moltissime discipline: matematica, statistica, chimica, fisica, economia... Il data mining può essere visto come il naturale sviluppo dell IT, inoltre deve essere visto come risultato di un process. 1 Per dato nella legge italiana, si intende informazione codificata da un pc. 2 Per informazione nella legge italiana, si intende delle informazioni non contenute all interno del pc.

5 2 Cosa è il Data Mining 5 2 Cosa è il Data Mining Traducendo letteralmente il termine, si trova: miniera di dati; interpretando il termine nel contesto informatico, si può capire come questa sia la base di partenza di un processo che prende il nome di data mining. In altre parole, è un processo attraverso il quale è possibile grazie ad una quantità notevole di dati e attraverso particolari algoritmi, estrarre delle informazioni nascoste: estrarre la conoscenza; knowledge [1]. 2.1 Un pò di storia Figura 1: L evoluzione della tecnologia dei database 2.2 Interdisciplinare Le tecniche di data minig, possono essere applicate in moltissimi ambiti: ambito biomedico e DNA analysis, analisi finanziarie, telecomunicazioni... a

6 6 2 Cosa è il Data Mining sua volta la tecnica di DM, si basa molte altre discipline. Alcuni esempi: Data Mining Database technology Informatica Statistica Tecniche di visualizzazione dei dati Machine Learning (apprendimento automatico); infatti, l identificazione di pattern può paragonarsi all apprendimento, da parte del sistema data mining, di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli algoritmi euristici e della intelligenza artificiale [4]. Altre 2.3 Il processo Il processo di data mining è formato da varie fasi: Data Cleaning In applicazioni reali, è difficile a volte riuscire a definire con precisione e con completezza le informazioni; consideriamo per esempio il caso di un database contenente dati identificativi di persone; non è detto che conosca tutti i dati di tutti i record. Come sopperire a questo problema: Tuple Ignorate Uso di attributi per completare quelli mancanti Usare il valore più probabile per completare quello mancante Correzione dei dati inconsistenti, riferimenti esterni. Data Integration Sempre più spesso, ed anche per motivi di prestazioni, i database sono distribuiti; progettati su piattaforme uguali, in questo caso non ci sono problemi o su piattaforme diversificate ed in questo caso possono sorgere problemi di integrazione appunto. Per risolvere questo problema, vanno considerati anche aspetti come la ridondanza 3 delle informazioni al fine di ridurre al minimo sprechi 3 Si intende un dato che può essere ricavato da altre tabelle

7 2 Cosa è il Data Mining 7 e perdita di prestazioni. Questi dati ridondanti possono essere trovati grazie ad una analisi di correlazione: r A,B = (A Ā) (B B) (n 1)σ a σ B (1) dove con n, si indica il numero di tuple, con Ā e B il significato 4 e σ A, σ B, la deviazione standard 5. Se il risultato dell equazione (1) è maggiore di 0 allora A e B sono correlati; cioè se cresce il valore di A anche B cresce. Se il valore è zero allora A e B sono indipendenti; mentre se il risultato è minore di zero A e B sono correlati negativamente, cioè se A cresce, B diminuisce. Data Trasformation In questa fase si cerca di trasformare o consolidare i dati affinché la forma di questi sia la più adatta alla applicazione degli algoritmi. In genere si procede in vari passi: Caratteristiche comuni (Smoothing): cluster, cioè avere gruppi di dati con caratteristiche comuni vedi Figura 2 a Pagina 7 Figura 2: Cluster Analisi 4 Significato: A Ā = n. 5 Deviazione (A standard: Ā) 2 σ A = n 1

8 8 3 Alcune tecniche Aggregazione: raggruppare i dati per mese di vendita ad esempio, per anno per settimana (Usato nella Data-Cube analisys, raggruppare dati secondo delle direzioni rappresentate sul cubo). Generalizzazione: dividere i dati in livelli di importanza, es. città, via, numero civico... Costruzione di attributi: per favorire il processo di ricerca, aggiungere nuovi attributi se necessario Data Mining L algoritmo usato viene eseguito su i dati al fine di produrre i risultati. Pattern evaluation Al fine di valutare se il pattern è valido, si cerca di rispondere alle seguenti domande: capire se è di facile lettura per l uomo, se sono interessanti tutti i patterns oppure solo alcuni; nella maggior parte dei casi solo alcuni. La risposta a queste domande è definita con una probabilità rappresentata dai concetti di supporto e confidenza [5]. Definiti come: supporto(x Y ) = P (X Y ). confidenza(x Y ) = P (Y X). Il primo rappresenta la percentuale di transazioni dove sono contenute sia X che Y ; mentre il secondo rappresenta la probabilità che una transazione che contiene X, contenga Y. Un esempio si può ottenere sostituendo ad X e Y dei valori ad esempio X = birra, Y = pannolini. 3 Alcune tecniche Esistono parecchi modi di analizzare i dati al fine di giungere a delle conclusioni; molti algoritmi già esistenti e molti studi ancora sono in continuo sviluppo per cercarne di nuovi e migliorarne, ottimizzarne altri. Alcuni di questi sono: Mining Association rules Applicata soprattutto nella MBA: Market basket Analysis Classification and Prediction Fanno parte di questa categoria i metodi Bayesiani, i GA Genetic Algorithms, approcci Fuzzy Cluster Analysis

9 3 Alcune tecniche Mining association rules Come già accennato questa tecnica viene usata nella Market Basket Analysis, la quale cerca di dare una risposta alla domanda Quale oggetti sono acquistati insieme da un acquirente? Tabella 1: Base di dati per basket analysis Transazione Data Oggetto Qta Prezzo 1 17/12/98 pantaloni-sci e 1 17/12/98 scarponi e 2 18/12/98 maglietta 1 25 e 2 18/12/98 giacca e 2 18/12/98 stivali e 3 18/12/98 giacca e 4 19/12/98 giacca e 4 19/12/98 maglietta 3 25 e Questa tecnica si basa sull uso dei concetti di supporto e confidenza presentati nella Sezione 2.3 a Pagina 6. Tabella 2: Regole di associazione Testa Corpo Supporto Confidenza pantaloni-sci scarponi 0.25 a 1 scarponi pantaloni-sci giacche magliette b magliette,stivali giacche a Numero di transazioni dove c è sia il corpo che la testa diviso il numero di transazioni totale; vedi Tabella 1 a Pagina 9 b Numero di transazioni dove c è sia il corpo che la testa diviso il numero di transazioni dove è presente il corpo vedi Tabella 1 a Pagina 9

10 10 3 Alcune tecniche 3.2 Alberi di decisione Un albero di decisione è un diagramma simile ad una struttura ad albero (vedi Figura 3 a Pagina 10), dove ogni nodo ha al suo interno ha un test su un attributo ed ogni scelta, rappresenta un risultato del test; le foglie dell albero rappresentano la classe o le classi di distribuzione. Questo algoritmi si basa sulla tecnica greedy. Figura 3: Albero di decisione La Figura 3 mostra l albero delle decisioni del concetto di acquirenti di computer; indica se una persona in base all età compra o meno un pc. Il percorso nodo radice, foglia, risulta essere la classe di previsione. 3.3 GA - Algoritmi genetici Questo tipo di algoritmi, si basa sull idea dell evoluzione naturale. In generale l evoluzione comincia come: Popolazione iniziale Creata con delle regole generate in modo casuale; ogni regola può essere rappresentata da una stringa di bit. Consideriamo ad esempio, due attributi booleani A 1, A 2 e due classi, C 1, C 2. La regola: if {A 1 && (not A 2 )} then C 2

11 3 Alcune tecniche 11 possa essere rappresentata dalla stringa di bit 100 dove i primi due bit rappresentano A 1, A 2 mentre l ultimo bit rappresenta C 2. Un altro esempio: if {not A 1 && (not A 2 )} then C 1 può essere codificato con la stringa di bit 001. Se ho una variabile k dove k > 2, allora si useranno k bit per rappresentarla. Dalla nozione di sopravvivenza, una nuova popolazione è formata da tutta una serie di regole. In genere la forma di una regola è valutata sulla base di un insieme semplice. I figli, sono creati attraverso il crossover; vengono prese un paio di regole e modificate, scambiate (swapped) per formare un nuovo paio di regole. Mentre con la fase di mutazione, vengono scelti dei bit in una regola ed in modo aleatorio vengono invertiti. Questo processo di evoluzione continua affinché la popolazione non è diventata della misura voluta. In genere questi tipi di algoritmi applicati all ottimizzazione dei problemi. Mentre nella data mining possono venire applicati per valutare la forma di altri algoritmi. Figura 4: Evoluzione

12 12 3 Alcune tecniche 3.4 Software Figura 5: Progetto Weka Weka è una collezione di machine learning algorithms per il data mining. Questo programma è scritto in Java, e tramite questo linguaggio è possibile richiamare dei dataset su cui applicare gli algoritmi. Weka contiene degli strumenti per il pre-processing dei dati, per la classificazione, per il clustering e l associazione di regole. Figura 6: Screenshot Weka Questo software è stato sviluppato dall università di Waikato [6].

13 3 Alcune tecniche 13 Il secondo software che presentiamo è una suite commerciale di Microsoft: Microsoft Dynamics. È un software che permette di gestire una organizzazione nel suo insieme, fornendo anche un supporto per il data mining [9]. Figura 7: Microsoft Dynamics Altri vendors nel campo del data mining sono: SAS Oracle Integrazione del data mining nei database Angoss Una delle prime applicazioni per il data mining HNC Fornisce delle soluzioni mirate e specifiche Unica

14 14 4 CRM - Customers Oriented 4 CRM - Customers Oriented Le applicazioni di Customer Relationship Management (CRM) sono essenziali per acquisire e mantenere le relazioni con il Cliente. Includono aspetti di marketing automation, sales force automation. Questo tipo di applicazioni risultano fortemente strategiche per la sopravvivenza del business. L azienda ricorre alle soluzioni Customer Relationship Management per migliorare la qualità e l accessibilità delle informazioni attraverso una loro gestione ottimale, il tutto in un ottica customer-centric. Il concetto che sta alla base del Customer Relationship Management si riassume brevemente nella capacità di raccogliere e gestire in modo appropriato la conoscenza (da con confondere con informazione ) relativa ad un cliente o ad un gruppo di clienti che l azienda già possiede all interno della sua struttura ma che non usa in modo appropriato per incrementare la Customer Satisfaction come mezzo per raggiungere un elevata Customer Retention 6. In altre parole, le aziende tramite il data mining come supporto dei CRM, possono sapere molte informazioni, per esempio, le preferenze di acquisto dei loro clienti e quindi fornire un prodotto più mirato alle loro esigenze. 6 Tenere i clienti soddisfatti; in altre parole non perdere clienti.

15 5 Quali standard 15 5 Quali standard Predictive Model Markup Language 7 (PMML) Data Mining Group [10] basato su XML (DTD) Java Data Mining API(JSR ) 8 Oracle, Sun, IBM... Supporto per data mining APIs su piattaforme J2EE Costruzione, gestione, attività programmate [11] OLE 9 database a supporto del Data Mining Basati su tabelle Microsoft PMML In genere alcune applicazioni si basano su più standard per essere più produttive. 1 <? xml version =" 1.0 "?> <! DOCTYPE PMML [ 3 <! ELEMENT MapValuesPair EMPTY > <! ATTLIST MapValuesPair 5 column CDATA # REQUIRED in CDATA # REQUIRED 7 out CDATA # REQUIRED > 9 ]> <PMML version =" 2.0 "> 11 < Header copyright =" Copyright (c) 2001, Oracle Corporation. All rights reserved." > < Application name =" Oracle 9i Data Mining " version =" "/> 13 </ Header > 15 < Itemset id=" 1" support =" " numberofitems =" 1" > < ItemRef itemref ="2"/> 17 </ Itemset > < AssociationRule support =" " confidence =" " antecedent =" 5" consequent =" 170 "/> 19 < AssociationRule support =" " confidence =" " antecedent =" 170 " consequent ="5"/> </ AssociationModel > 21 </ PMML > Codice 1: Esempio PMML 7 Predictive Model Markup Language (PMML) è un linguaggio basato su XML che descrive modelli statistici e di data mining. 8 È uno standard Java che permette di comunicare con altri standard ad esempio PMML. 9 Object Linking and Embedding

16 16 6 E la Privacy? 6 E la Privacy? In Italia esiste la legge 31 dicembre 1996, n. 675: Tutela delle persone e di altri soggetti rispetto al trattamento dei dati personali, pubblicata nella Gazzetta Ufficiale n. 5 dell 8 gennaio Supplemento Ordinario n. 3; la quale regola il trattamento dei dati personali. È stata puoi riunita con il decreto legislativo n 196 del 30 giugno 2003 che ha fornito un Testo Unico per la privacy (L. 675/96, DPR 318/99). Ad esempio nel CAPO 3, Sezione 1, Art. 9: 1. I dati personali oggetto di trattamento devono essere: (a) trattati in modo lecito e secondo correttezza; (b) raccolti e registrati per scopi determinati, espliciti e legittimi, ed utilizzati in altre operazioni del trattamento in termini non incompatibili con tali scopi; (c) esatti e, se necessario, aggiornati; (d) pertinenti, completi e non eccedenti rispetto alle finalità per le quali sono raccolti o successivamente trattati; (e) conservati in una forma che consenta l identificazione dell interessato per un periodo di tempo non superiore a quello necessario agli scopi per i quali essi sono stati raccolti o successivamente trattati. Un altra importante parte è quella del consenso. Abbiamo aggiunto questa sezione sulla privacy in quanto è importante sapere che dati si stia trattando, a volte questo aspetto viene sottovalutato, a discapito delle persone e delle norme vigenti.

17 A Articolo 17 A Articolo A.1 Il data mining non serve per sconfiggere il terrorismo, ma si diffonde in Usa. Nel mondo post-11 settembre si presta molta attenzione a unire i punti. Molti credono che il data mining sia la sfera di cristallo che ci permetterà di svelare future trame terroristiche Nel mondo post-11 settembre si presta molta attenzione a unire i punti. Molti credono che il data mining sia la sfera di cristallo che ci permetterà di svelare future trame terroristiche. Ma anche nelle proiezioni più sfrenatamente ottimistiche, il data mining non è sostenibile per tale scopo. Non stiamo barattando la privacy per la sicurezza; stiamo rinunciando alla privacy senza ottenere in cambio alcuna sicurezza. Moltissime persone scoprirono per la prima volta in che cosa consiste il data mining nel novembre 2002, quando fece notizia un massiccio programma governativo di data mining chiamato Total Information Awareness. L idea di fondo era audace quanto ripugnante: raccogliere quanti più dati possibile su chiunque, passarli al vaglio grazie a potentissimi calcolatori, e investigare quei pattern, quelle ricorrenze che potrebbero indicare trame terroristiche. Gli americani di ogni credo politico denunciarono il programma, e nel settembre 2003 il Congresso ne eliminò i fondi e ne chiuse gli uffici. Ma Total Information Awareness non scomparve. Secondo The National Journal cambiò semplicemente nome e fu spostato all interno del Dipartimento della Difesa. Ciò non dovrebbe sorprendere. Nel maggio 2004, il General Accounting Office pubblicò un rapporto che elencava 122 diversi programmi di data mining varati dal governo federale che si servivano delle informazioni personali dei cittadini. Tale lista non comprendeva i programmi segreti, come le intercettazioni della NSA o programmi a livello statale come MATRIX 10. La promessa del data mining è avvincente, e molti ne sono affascinati. Ma tutto ciò è sbagliato. Non scopriremo trame terroristiche con sistemi 10 Informazioni reperibili all indirizzo: res html, (Multistate Anti-TeRrorism Information exchange) è un sistema di sorveglianza che combina informazioni su persone da database governativi ed altri database di multinazionali.

18 18 A Articolo come questo, e siamo in procinto di sprecare risorse preziose inseguendo falsi allarmi. Per capire perché, occorre osservare l economia del sistema. La sicurezza è sempre un compromesso, e perché un sistema sia valido, i vantaggi devono essere maggiori degli svantaggi. Un programma di data mining nazionale troverà una certa percentuale di attacchi reali, e una certa percentuale di falsi allarmi. Se i benefici derivanti dall individuare e dal fermare quegli attacchi superano i costi (in denaro, in libertà, ecc.) allora il sistema è buono. In caso contrario, sarebbe preferibile spendere quei costi in altro modo. Il data mining funziona al meglio quando si è alla ricerca di un ben determinato profilo, un numero ragionevole di attacchi ogni anno, e un costo contenuto per i falsi allarmi. La frode delle carte di credito è un caso di successo del data mining: tutte le compagnie di carte di credito esaminano i propri database delle transazioni in cerca di pattern di spesa che indichino la presenza di una carta di credito rubata. Molti ladri di carte di credito presentano un simile pattern: l acquisto di costosi beni di lusso, l acquisto di oggetti facilmente smerciabili tramite ricettazione, ecc.; e i sistemi di data mining in molti casi possono minimizzare le perdite bloccando la carta. In più, il costo dei falsi allarmi è rappresentato solo da una telefonata al titolare della carta, richiedendogli di verificare un paio di acquisti. E i titolari delle carte non sono nemmeno seccati da queste chiamate (purché avvengano di rado), per cui il costo si riduce semplicemente ad alcuni minuti di chiamata con un operatore. Le trame terroristiche sono differenti. Non esiste un profilo ben determinato, e gli attacchi sono molto rari. Presi insieme, questi fatti significano che i sistemi di data mining non rileveranno alcun complotto terroristico a meno che non siano molto accurati, e che anche i sistemi più accurati saranno talmente inondati da falsi allarmi da diventare inutili. [... ] Per ridurre entrambi quei numeri, è necessario un profilo ben definito. Ed è questo il problema quando si è alle prese con il terrorismo. Col senno di poi, era davvero semplice unire i punti dell 11 settembre e puntare ai vari segnali d allarme, ma è molto più difficile prima dell evento. Di sicuro esistono segnali d allarme comuni a molti complotti terroristici, ma ognuno è al tempo stesso unico. Più è possibile definire nei dettagli ciò che si sta cercando, migliori saranno i risultati. Il data mining alla caccia di trame terroristiche è destinato a essere approssimativo, e sarà difficile scoprire qualcosa di utile.

19 A Articolo 19 Il data mining è come cercare un ago in un pagliaio. Vi sono 900 milioni di carte di credito in circolazione negli Stati Uniti. Secondo lo FTC Identity Theft Survey Report del settembre 2003, ogni anno circa l 1% (10 milioni) delle carte di credito viene rubato e usato in modo fraudolento. Il terrorismo è diverso. Vi sono trilioni di connessioni fra persone ed eventi (cose che il sistema di data mining dovrà osservare) e pochissimi complotti. Questo livello di rarità rende inutili persino i sistemi di identificazione più accurati. [... ] Questo sistema irrealisticamente accurato genererà un miliardo di falsi allarmi per ogni complotto terroristico rilevato. Ogni giorno di ogni anno le forze dell ordine dovranno investigare 27 milioni di potenziali complotti per poter arrivare a scoprire l unico vero complotto terroristico ogni mese. Aumentiamo l accuratezza dei falsi positivi a un assurdo 99,9999% e si dovranno affrontare ancora falsi allarmi al giorno; ma questo farà aumentare inevitabilmente anche i falsi negativi, e sarà molto probabile mancare uno di quei dieci veri complotti terroristici. [... ] Il data mining può funzionare. Aiuta Visa a contenere i costi delle frodi, così come aiuta Amazon.com a mostrarmi libri che potrebbero interessarmi e che potrei comprare, e Google a mostrarmi annunci pubblicitari che potrebbero incuriosirmi. Ma queste sono tutte istanze in cui il costo dei falsi positivi è basso (una chiamata di un operatore Visa, un annuncio non interessante) e riguardano sistemi che hanno valore anche se il numero di falsi negativi è elevato. Scoprire complotti terroristici non è un problema che si presta a essere risolto dal data mining. È il tipico caso dell ago nel pagliaio, e aumentare la pila di paglia non facilita la risoluzione del problema. Sarebbe molto meglio incaricare persone all investigazione di potenziali trame terroristiche e permettere a queste persone di dirigere i computer, invece di assegnare l incarico ai computer e lasciar decidere a loro chi bisognerebbe indagare [2], [3]. di Bruce Schneier #comments

20 20 Riferimenti bibliografici Riferimenti bibliografici [1] Jiawei Han M. Kamber (2001), Data Mining Concepts and Tecniques Morgan Kuafmann Publishers [2] [3] [4] Data mining Data accesso [5] P. Atzeni, S. Ceri, S. Paraboshi, R. Torlone (1999), Basi di dati Seconda edizione McGraw-Hill [6] [7] M. J. A. Berry, G. Linoff (1997), Data mining techniques For Marketing, Sales, and Custumer Suport Wiley Computer Publishing [8] Paolo Giudici (2001), Data mining Metodi statistici per le applicazioni aziendali McGraw-Hill [9] 0/navision_40_release.mspx [10] [11]