Analisi e Gestione dei Dati

Documenti analoghi
Data Warehousing (DW)

Data warehouse Introduzione

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Cosa è un data warehouse?

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data mining e rischi aziendali

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

Lezione 8. Data Mining

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Governo Digitale a.a. 2011/12

Rassegna sui principi e sui sistemi di Data Warehousing

Architetture per l analisi di dati

Introduzione al Data Mining

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Introduzione a data warehousing e OLAP

Introduzione al data warehousing

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

B C I un altro punto di vista Introduzione

PDF created with pdffactory trial version Il processo di KDD

Lezione 1. Introduzione e Modellazione Concettuale

I Sistemi Informativi Geografici. Laboratorio GIS 1

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Data Mining a.a

Analisi dei requisiti e casi d uso

Marketing relazionale

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

On Line Analytical Processing

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Business Intelligence & Data Mining. In ambiente Retail

Introduzione all Information Retrieval

I sistemi di reporting e i rapporti direzionali

Data Warehousing: concetti base e metodologie

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Convegno 6 giugno 2013 Federlazio Frosinone

Data Mining e Analisi dei Dati

SISTEMI INFORMATIVI AZIENDALI

Corso di Web Mining e Retrieval

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

Sistemi di supporto alle decisioni

Ciclo di vita dimensionale

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

SQL Server Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

Docente. Sistemi Informativi. Programma. Programma. Ing. Fabrizio Riguzzi

SQL Server BI Development Studio

MASTER UNIVERSITARIO

Computazione per l interazione naturale: macchine che apprendono

OLAP On Line Analytical Processing

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

4 Introduzione al data warehousing

Relazione sul data warehouse e sul data mining

DSCube. L analisi dei dati come strumento per i processi decisionali

Data Warehousing e Data Mining

1. BASI DI DATI: GENERALITÀ

Sistemi Informativi. Ing. Fabrizio Riguzzi

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione

Sistemi Informativi Aziendali I

La suite Pentaho Community Edition

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

Università degli studi Roma Tre Dipartimento di informatica ed automazione. Tesi di laurea

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Data warehouse. della spesa sanitaria. acquisizione della conoscenza. Statistical Learning & Information Management

Corso di Basi di Dati e Conoscenza

Introduzione ad OLAP (On-Line Analytical Processing)

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

WebBi S.r.l offre consulenza e soluzioni per le seguenti aree: Data Warehousing. Business Intelligence. Disegno di architetture integrate

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Organizzazione degli archivi

SISTEMI INFORMATIVI AZIENDALI

La portata del software

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

Informatica I per la. Fisica

Analisi e catalogazione automatica dei Curriculum Vitae

SQL/OLAP. Estensioni OLAP in SQL

Regole di Associazione

Dispensa di database Access

Sistemi Informativi. Ing. Fabrizio Riguzzi

Basi di Dati Complementi Esercitazione su Data Warehouse

delle aziende in Italia:

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Ricerca di outlier. Ricerca di Anomalie/Outlier

Business Intelligence CRM

Data Warehouse Architettura e Progettazione

Data warehousing con SQL Server

U Corso di italiano, Lezione Quindici

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

Introduzione alla teoria dei database relazionali. Come progettare un database

Le Basi di Dati. Le Basi di Dati

Suggerimenti per l approccio all analisi dei dati multivariati

02/mag/2012. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale

Il sistema di gestione dei dati e dei processi aziendali. Il sistema di controllo interno dal punto di vista del revisore

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2)

Architetture Informatiche. Dal Mainframe al Personal Computer

Transcript:

Analisi e Gestione dei Dati Prof. Alfredo Pulvirenti Prof. Alfredo Ferro: ferro@dmi.unict.it Ufficio 40 Blocco III Tel. 095 7383071 Prof. Alfredo Pulvirenti: apulvirenti@dmi.unict.it Ufficio 35 Blocco III Tel. 095 7383087 Dott. Misael Mongiovì: mongiovi@dmi.unict.it Ufficio 35 Blocco III Tel. 095 7383087 Dott.Sebastiano Di Bella: sebydibella@gmail.com Dott. Salvatore Alaimo: alaimos@gmail.com Dott.Rosario Distefano: rosario.distefano.ict@gmail.com Lezioni: Aula 2: Lunedì-Mercoledì-Venerdì 15.00-17.00 Orari Mining of Massive Datasets Rajaraman,Leskovec,Ullman Cambridge University Press http://infolab.stanford.edu/~ullman/mining/2009/index.html Libro di testo Ricevimento: Ricevimento: Mercoledì 9:00-10:00 Alternativamente per appuntamento 1

Data Mining: Concepts and Techniques, 2nd ed. Jiawei Han and Micheline Kamber The Morgan Kaufmann Series in Data Management Systems Materiale didattico The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Trevor Hastie,Robert Tibshirani, Jerome Friedman Springer http://www-stat.stanford.edu/~tibs/elemstatlearn/ Lucidi e dispense del docente: http://www.dmi.unict.it/~apulvirenti/ Introduzione Background Cenni su probabilità e statistica Teoria spettrale Entropia Introduzione ad R Data Mining ad alto supporto Reccomendation systems Clustering Classificazione Alberi Decisionali Random Forest SVM Estrattori di Regole Classificatori Bayesiani *Naive Bayes Reti Bayesiane Metaclassificatori Programma Probabilistic Graphical Model Catene di Markov Gibbs Sampling Hidden Markov Model Markov Clustering Random Walk Web Mining Misure di centralità Coefficiente di clustering PageRank Hits Books and Authors Data Mining a Basso supporto Map Reduce Hadoop Network Mining Modelli per le reti Erdos- Reini Small World Barabasi Alberts Graph Mathcing Graph Searching Graph Mining Graph Clustering Network Dinamici Streams Esercitazioni Gli algoritmi ed i metodi presentati a lezione saranno approfonditi anche da un punto di vista pratico mediante l uso di strumenti open-source per il data mining. R Weka Keel 2

Scritto. Progetto da concordare con il docente. Esame Cosa è il data mining? Assistiamo ad una crescita esplosiva delle quantità di dati disponibili: terabytes petabytes Risorse principali Business: Web, e-commerce, transazioni, mercato finanziario, ecc. Scienza: Remote sensing, bioinformatica, ecc. Società: news, reti socialie, ecc. Collezionare dati e disponibilità di questi Strumenti per la raccolta automatizzata dei dati, database, web, ecc. Cenni storici Della scienza 1600 1600-1950 1950-1990 1990- oggi Scienza Empirica Scienze Teoriche Scienze computazionali Data Science Era dei non-relational database Anni 60 Anni 70 Anni 80 Anni 90 2000 Ma attenzione! DATI!= CONOSCENZA La necessità è la madre delle invenzioni.. IMS e network DBMS Nascita Modello OODBMS, Relazionale Spatial DBMS,ecc. Era dei relational DBMS Database Data mining, data warehousing, multimedia database, Web DB Stream data management e mining Applicazioni del Data mining Web technology (XML, data integration) e global information system 3

Cosa è il data mining? Data mining (knowledge discovery) Scoperta di proprietà (pattern) generali (non banali, impliciti, non conosciuti e potenzialmente utili) in un insieme di dati per specifiche applicazioni. Comunità Scientifiche interessate Database Statistica Nomi alternativi Knowledge discovery (mining) in database (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. Machine Learning Data Mining Visualizzazione Pattern Recognition Algoritmi Altre discipline Fasi del processo di data mining Data gathering: data warehouse, web search, etc.. Data Cleaning: Elimina gli errori, le ambiguità Feature extraction: per avere solo gli attributi interessanti dei dati. Fasi del processo di Data-Mining Pattern Evaluation Data Mining Task-relevant Data Pattern extraction and discovery: questo e il vero e proprio data mining Data Warehouse Selection Visualization Data Cleaning Evaluation: valutare quali fatti scoperti sono utili. Data Integration Databases 4

Increasing potential to support business decisions Data Mining e Business Intelligence Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Summary, Querying, and Reporting End User Business Analyst Data Analyst Motivazioni del data mining Grandi quantità di dati Necessità di algoritmi scalabili High-dimensionality data Es. Microarray Dati complessi Data stream e sensor data; Time-series, dati temporali, dati sequenziali; Dati strutturati, grafi, reti sociali; Database eterogenei e sistemi legacy; Spaziali, spazio-temporali, multimedia, text e Web data; Codice sorgente, simulazioni scientifiche. Data Preprocessing/Integration, Data Warehouses Data Sources DBA Multidimensionalità del data mining Dati da investigare Relazionali, data warehouse, transazionali, stream, ORDB, attivi, spaziali, serie-temporali, testuali, multimedia, eterogenei, legacy, www. Conoscenza da estrarre Caratterizzazione, discriminazione, classificazione, associazioni, clustering, analisi delle tendenze, outlier, ecc. Tecniche utilizzate Database-oriented, data warehouse (OLAP), machine learning, stastistica, visualizzazione, ecc. Campi di applicazione Retail, telecomunicazioni, banking, analisi frodi, bio-data mining, finanziario, text mining, web mining, ecc. Schemi di classifcazione del data mining Funzionalità generali Data mining descrittivo Data mining predittivo Viste: Data view: tipo di dati da esplorare Knowledge view: tipo conoscenza da estrarre Method view: tipo di tecnica da usare Application view: a quali applicazioni di rivolge 5

Generalizzazioni. Costruzione di banche dati consolidate Integrazione dell informazione e costruzione di data warehouse Data cleaning, transformation, integration, multidimensional data model Data cube technology Metodi scalabili per la materializzazione di aggregazioni multidimensionali OLAP (online analytical processing) Descrizione di concetti multidimensionali: caratterizzazione e discriminazione Generalizzare, dati di riepilogo, e dati con caratteristiche contrastanti, es., regioni calde vs regioni fredde Data Cleaning La qualità dei dati gioca un ruolo centrale poiché ha implicazioni nel sistema di supporto alle decisioni. I dati reali solitamente non hanno un controllo di qualità e quindi non sono sempre definiti in modo consistente. Questi provengono da sorgenti multiple ed eterogenee. Necessità di un sistema di preprocessing capace di migliorare la qualità dei dati. Data Cleaning Qualità dei dati Duplicate Record Detection I dati anlizzati attraverso algoritmi di data mining spesso si presentano : Incompleti o con dati mancanti; Con rumore; Con inconsistenze; Con errori (es. Msrio vs Mario); Senza controlli sull integrità: es. età = 170; Convenzioni differenti: es., 50 W. 4th St. vs. 50 West Fourth Street 6

Sistemi di supporto alle decisioni I sistemi di supporto alle decisioni (DSS) costituiscono la tecnologia che supporta la dirigenza aziendale nel prendere decisioni tattico-strategiche in modo efficace e veloce, mediante particolari tipologie di elaborazione (per esempio OLAP) Ma su quali dati? Ad esempio quelli accumulati per i processi operativi e gestionali Tipi di elaborazione Nei Transaction Processing Systems: On-Line Transaction Processing Nei Decision Support Systems: On-Line Analytical Processing Data warehouse Una base di dati utilizzata principalmente per il supporto alle decisioni direzionali integrata aziendale e non dipartimentale con dati storici con un ampio orizzonte temporale, e indicazione (di solito) di elementi di tempo con dati usualmente aggregati per effettuare stime e valutazioni fuori linea i dati sono aggiornati periodicamente mantenuta separatamente dalle basi di dati operazionali Sorgenti esterne Basi di dati operazionali Architettura per il data warehousing Metadati Data Warehouse Data Mart Analisi dimensionale Data mining Sorgenti dei dati Strumenti di analisi 7

Sorgenti informative I sistemi operazionali dell organizzazione sono sistemi transazionali (OLTP) orientati alla gestione dei processi operazionali non mantengono dati storici ogni sistema gestisce uno o più soggetti (ad esempio, prodotti o clienti) sono spesso sistemi legacy Sorgenti esterne ad esempio, dati forniti da società specializzate di analisi Alimentazione del data warehouse Attività necessarie ad alimentare un data warehouse estrazione accesso ai dati nelle sorgenti pulizia rilevazione e correzione di errori e inconsistenze nei dati estratti trasformazione trasformazione di formato, correlazione con oggetti in sorgenti diverse caricamento con introduzione di informazioni temporali e generazione dei dati aggregati I metadati sono informazioni mantenute a supporto di queste attività Metadati "Dati sui dati": descrizioni logiche e fisiche dei dati (nelle sorgenti e nel DW) corrispondenze e trasformazioni dati quantitativi Spesso sono non dichiarativi e immersi nei programmi Data Warehouse Server Sistema dedicato alla gestione warehouse Può basarsi su diverse tecnologie ROLAP i dati sono memorizzati in DBMS relazionali (schemi a stella) MOLAP I dati sono memorizzati in forma multidimensionale tramite speciali strutture dati tipicamente proprietarie i produttori di RDBMS forniscono estensioni OLAP ai loro prodotti 8

Strumenti di analisi Consentono di effettuare analisi dei dati utilizzando il Data Warehouse server e offrono interfacce user friendly per presentare, in forma adeguata e facilmente comprensibile, i risultati delle analisi. Due principali tipologie di analisi (e quindi di strumenti) Analisi multidimensionale. Data mart Un sottoinsieme logico dell intero data warehouse un data mart è la restrizione del data warehouse a un singolo problema di analisi. un data warehouse è l unione di tutti i suoi data mart. un data mart rappresenta un progetto fattibile la realizzazione diretta di un data warehouse completo non è invece solitamente fattibile Data mining Monitoraggio & Amministrazione Sorgenti esterne Basi di dati operazionali Metadati Variante dell architettura Analisi dimensionale Data mining Rappresentazione multidimensionale L analisi dei dati avviene rappresentando i dati in forma multidimensionale Concetti rilevanti: Fatto: un concetto sul quale centrare l analisi Misura: una proprietà atomica di un fatto Dimensione: descrive una prospettiva lungo la quale effettuare l analisi Esempi di fatti/misure/dimensioni vendita/quantità venduta,incasso/prodotto,tempo telefonata/costo,durata/chiamante,chiamato,tempo Sorgenti dei dati Data Mart Strumenti di analisi 9

Rappresentazione multidimensionale dei dati Dimensioni e gerarchie di livelli Luogo (negozio) Quantità Tempo (trimestre) Roma-1 Milano-2 Milano-1 Roma-2 1 trim. 2003 2 trim. 2003 3 trim. 2003 4 trim. 2003 Lettori DVD Televisori Lettori CD Videoregistratori Articolo (prodotto) regione provincia città negozio Luogo categoria marca prodotto Articolo anno trimestre mese giorno Tempo Operazioni su dati multidimensionali Slice and dice Slice & dice seleziona e proietta Roll up (o drill up) aggrega i dati volume di vendita totale dello scorso anno per categoria di prodotto e regione Drill down disaggrega i dati per una particolare categoria di prodotto e regione, mostra le vendite giornaliere dettagliate per ciascun negozio (Pivot re-orienta il cubo) Luogo Il manager regionale esamina la vendita dei prodotti in tutti i periodi relativamente ai propri mercati Articolo Il manager finanziario esamina la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente Tempo Il manager di prodotto esamina la vendita di un prodotto in tutti i periodi e in tutti i mercati Il manager strategico si concentra su una categoria di prodotti, una area e un orizzonte temporale 10

Qualità dei pattern predetti. Significatività Data mining può generare migliaia di pattern non tutti interessanti Misurare la qualità Un pattern è interessante se facilmente interpretabile dall uomo, valido sui dati nuovi con un certo grado di certezza, potenzialmente utile, nuovo, significativo (non ottenibile casualmente) Examples of Bonferroni s Principle 1. A big objection to TIA was that it was looking for so many vague connections that it was sure to find things that were bogus and thus violate innocents privacy. 2. The Rhine Paradox: a great example of how not to conduct scientific research. Stanford Professor Proves Tracking Terrorists Is Impossible! The TIA Story Three years ago, the example I am about to give you was picked up from my class slides by a reporter from the LA Times. Despite my talking to him at length, he was unable to grasp the point that the story was made up to illustrate Bonferroni s Principle, and was not real. Suppose we believe that certain groups of evildoers are meeting occasionally in hotels to plot doing evil. We want to find (unrelated) people who at least twice have stayed at the same hotel on the same day. 11

10 9 people being tracked. 1000 days. Each person stays in a hotel 1% of the time (10 days out of 1000). Hotels hold 100 people (so 10 5 hotels). If everyone behaves randomly (I.e., no evildoers) will the data mining detect anything suspicious? The Details p at some hotel q at some hotel Calculations (1) Same hotel Probability that given persons p and q will be at the same hotel on given day d : 1/100 1/100 10-5 = 10-9. Probability that p and q will be at the same hotel on given days d 1 and d 2 : 10-9 10-9 = 10-18. Pairs of days: 510 5. Calculations (2) Probability that p and q will be at the same hotel on some two days: 510 5 10-18 = 510-13. Pairs of people: 510 17. Expected number of suspicious pairs of people: 510 17 510-13 = 250,000. Conclusion Suppose there are (say) 10 pairs of evil-doers who definitely stayed at the same hotel twice. Analysts have to sift through 250,010 candidates to find the 10 real cases. Not gonna happen. But how can we improve the scheme? 12

Moral When looking for a property (e.g., two people stayed at the same hotel twice ), make sure that the property does not allow so many possibilities that random data will surely produce facts of interest. Rhine Paradox (1) Joseph Rhine was a parapsychologist in the 1950 s who hypothesized that some people had Extra-Sensory Perception. He devised (something like) an experiment where subjects were asked to guess 10 hidden cards red or blue. He discovered that almost 1 in 1000 had ESP they were able to get all 10 right! Rhine Paradox (2) He told these people they had ESP and called them in for another test of the same type. Alas, he discovered that almost all of them had lost their ESP. What did he conclude? Answer on next slide. Rhine Paradox (3) He concluded that you shouldn t tell people they have ESP; it causes them to lose it. 13

Understanding Bonferroni s Principle will help you look a little less stupid than a parapsychologist. Moral Association e Correlation Analysis Pattern frequenti (o frequent itemsets) Quali prodotti vengono acquistati frequentemente assieme nel supermercato dove ci riforniamo? Associazioni, correlazione e causalità Esempio di regola di associazione Pannolini Birra [0.5%, 75%] (supporto, confidenza) I prodotti associati sono anche fortemente correlati? Come faccio il mining efficiente di questi pattern in grandi db? Come posso usare questi pattern per classificare, fare il clsutering ecc.? Esempio/ Retail Esempio del Retail. Catena di supermercati. Problema del basket analysis. Trovare a trovare associazioni tra prodotti acquistati dai clienti? Se dei clienti che acquistano tipicamente X acquistano anche Y, ma esistono dei clienti che acquistano solamente X e non Y allora questi ultimi sono dei potenziali acquirenti per Y. Identificati questi clienti si può effettuare il cross-selling. Esempio/ Amazon.it Regola di associazione: Apprendere delle probabilità condizionate del tipo P(Y X). Ovvero avendo osservato l acquisto di X quale è la probabilità che venga acquistato Y? Pannolini Birra [0.5%, 75%] (supporto, confidenza) 14

Classification e Predizione Classificazione e predizione Costruzione di modelli (funzioni) basati su esempi di training; Descrivere e distignuere le classi o I concetti per predizioni future; Es., classificare I paesi in base al clima, le auto in base ai consumi, ecc. Predire dati sconosciuti o assenti; Metodi tipici Decision tree, naïve Bayesian classification, support vector machine, neural network, rule-based classification, pattern-based classification, logistic regression, Applicazioni tipiche: Frodi, marketing, astronomia, medicina, web, ecc. Esempio/ richiesta credito Per una banca è importante essere capaci di prevedere il rischio associato ad un prestito.. La probabilità che il cliente avrà problemi e non rimborserà il prestito. La banca desidera essere sicura di avere un profitto e di non incappare nel cliente che va oltre le proprie capacità finanziarie. Credit scoring: la banca calcola il rischio incrociando il credito richiesto ed alcune informazioni che stimano la capacità finanziaria del cliente (introitimensili, risparmi, professione, età storia finanziaria ecc.). Supponiamo di avere due classi di clienti bassorischio, altorischio. Le informazioni relative ai clienti sono l input del classificatore ed il task è assegnare una etichetta al cliente (bassorischio, altorischio). Diagnosi mediche Training data Dati passati con clienti già classificati correttamente Training per l apprendimento di una regola if introitimensili > d 1 AND risparmi > d 2 then bassorischio else altorischio risparmi bassorischio Informazioni rilevanti relative ai pazienti in grado di caratterizzare la tipologia di malattia Rosenfel et al 2008 Vettore multidimensionale Composto da valori numerici Relativi al livello di espressione Dei microrna in un paziente d 2 altorischio Alpaydin 2010 d 1 introitimensili Albero decisionale 15

Esempio Regressione Problemi dove la predizione è numerica si chiamano problemi di regressione. Sistema per la predizione del prezzo di un auto usata. Input, attributi dell auto che influenzano il valore: marca, anno, alimentazione, km, ecc. Output: prezzo dell auto. Notazione: con X indichiamo gli attributi dell auto con Y il prezzo dell auto. Ancora una volta andiamo a fare un survey delle transazioni passate collezionando dati di training per il nostro problema. Clustering e Outlier detection Cluster analysis y = wx+w0 In generale: Y=g(x θ) Outlier detection dove g() è il modello e θ sono i suoi parametri Y è un numero nella regressione un valore di una classe nella classificazione Regressione quadratica y=w2x+w1x+ w0 Unsupervised learning Raggruppare I dati per formare nuove categorie (cluster). Es. Fare il clustering; Principio di base: massimizzare la similarità tra gli oggetti che sono in una classe e minimizzare quella tra oggetti presenti in cluster differenti; Tanti metodi e tante applicazioni; Outlier: un oggetto che non ha un comportamento simile a quello generale assunto dagli altri dati; Rumore? Eccezione? Utile o inutile? Metodi: come risultato del clustering o con tecniche di regressione, ecc.; Utile per il detection di frodi, analisi di eventi rari, ecc. Esempio Trend ed Evolution Analysis Sequenze, tendenze e analisi dell evoluzione, Trend e deviation analysis: es. regressione Sequential pattern mining: Comprare una macchina digitale, quindi una memory card, e dopo?!"#$%& '$%#()& Analisi della periodicità; Motifs, time-series, e biological sequence analysis Motivi approssimati e consecutivi Analisi di similarità Mining data streams Ordered, time-varying, potentially infinite, data streams 16

Structure e Network Analysis Graph mining Trovere i sottografi frequenti (es., chemical compounds), alberi (XML), sottostrutture (web fragments) Information network analysis Social network: attori (objects, nodes) relazioni (edges) Es., network degli autori in CS, reti terroristiche Network multiple ed eterogenee Una persona può stare in diverse comunità: amici, famiglia, colleghi, ecc. Semantica dei link tra le persone. Web mining Information network di grandi dimensioni: PageRank a Google Analysis of Web information network Web community discovery, opinion mining, usage mining, raccomandazioni. Top-10 dei più popolari algoritmi di data mining (candidati) Classification #1. C4.5: Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann., 1993. #2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, 1984. #3. K Nearest Neighbours (knn): Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. TPAMI. 18(6) #4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398. Statistical Learning #5. SVM: Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag. #6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. Association Analysis #7. Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94. #8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00. Top-10 dei più popolari algoritmi di data mining (candidati) Top-10 dei più popolari algoritmi di data mining (candidati) Link Mining #9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale hypertextual Web search engine. In WWW-7, 1998. #10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. SODA, 1998. Clustering #11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. #12. BIRCH: Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96. Bagging and Boosting #13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decisiontheoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139. Sequential Patterns #14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996. #15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01. Integrated Mining #16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. Rough Sets #17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 Graph Mining #18. gspan: Yan, X. and Han, J. 2002. gspan: Graph-Based Substructure Pattern Mining. In ICDM '02. 17

Top-10 Algoritmi selezionati durante la conferenza ICDE 2006 #1: C4.5 (61 votes) #2: K-Means (60 votes) #3: SVM (58 votes) #4: Apriori (52 votes) #5: EM (48 votes) #6: PageRank (46 votes) #7: AdaBoost (45 votes) #7: knn (45 votes) #7: Naive Bayes (45 votes) #10: CART (34 votes) Aspetti principali nel data mining Metodoloiga Mining di diversi tipi di conoscenza a partire da diversi tipi di dati (bio, stream,web, ecc.) Performance: efficienza, efficacia, scalabilità Valutazione dei pattern: significatività Conoscenza di backgroundo Dati con rumore ed incompleti Metodi paralleli, distribuiti, incrementali Integrazione della conoscenza Interazione con l utente Data mining query language Visualizazione Mining interattivo abstraction Applicazioni ed impatto sociale Domain-specific data mining & invisible data mining Protection of data security, integrity, and privacy Libri di riferimento S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002 R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003 U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2 nd ed., 2006 D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001 B. Liu, Web Data Mining, Springer 2006. T. M. Mitchell, Machine Learning, McGraw Hill, 1997 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005 S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998 Summary Scoperta di pattern interessanti da grandi quantità di dati: Data mining. Una evoluzione naturale della tecnologia dei database. Processo di KDD (knowledge discovery in database) data cleaning, data integration, data selection, transformation, data mining, pattern evaluation, e knowledge presentation Data mining: characterization, discrimination, association, classification, clustering, outlier e trend analysis, ecc. Major issues in data mining I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2 nd ed. 2005 18

Architettura tipica di un sistema di Data Mining Graphical User Interface Pattern Evaluation Data Mining Engine Database or Data Warehouse Server Knowle dge- Base data cleaning, integration, and selection Database Data Warehouse World-Wide Web Other Info Repositories 19