Knowledge Discovery e Data Mining



Documenti analoghi
PDF created with pdffactory trial version Il processo di KDD

Data Warehousing (DW)

Data mining e rischi aziendali

Grid Data Management Services

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Introduzione ad OLAP (On-Line Analytical Processing)

Cosa è un data warehouse?

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n ) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

S P A P Bus Bu in s e in s e s s s O n O e n 9 e.0 9 p.0 e p r e r S A S P A P HAN HA A Gennaio 2014

Data warehouse Introduzione

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Lezione 1. Introduzione e Modellazione Concettuale

Marketing relazionale

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Università di Pisa A.A

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

REALIZZARE UN MODELLO DI IMPRESA

Ciclo di vita dimensionale

Grid Data Management Services. Griglie e Sistemi di Elaborazione Ubiqui

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

TECNOLOGIE REALTIME DATA INTEGRATION

Il CRM per la Gestione del Servizio Clienti

La memoria - generalità

La Metodologia adottata nel Corso

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

Il modello di ottimizzazione SAM

Calcolatori Elettronici A a.a. 2008/2009

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

Attenzione! il valore della Rimodulazione è superiore alla cifra di Negoziazione

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Progettazione di Basi di Dati

Data Mining a.a

Gestione per processi: utilità e sfide. Ettore Bolisani DTG Dipartimento di Tecnica e Gestione dei Sistemi Industriali Università di Padova

PROJECT MANAGEMENT SERVIZI DI PROJECT MANAGEMENT DI ELEVATA PROFESSIONALITÀ

Architettura dei computer

Grid Data Management Services

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

un occhio al passato per il tuo business futuro

11. Evoluzione del Software

PREDICTIVE ANALYTICS A CA FOSCARI Proposta di un nuovo Corso di Laurea Magistrale

Presentazione di Arthur D. Little Integrazione di sistemi di gestione

Sistemi informativi aziendali struttura e processi

Diritto alla privacy e diritto alla conoscenza: un dilemma per la

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

SISTEMI INFORMATIVI AZIENDALI

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Analisi dei requisiti e casi d uso

I SISTEMI DI PERFORMANCE MANAGEMENT

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;

Scheda. Il CRM per la Gestione del Marketing. Accesso in tempo reale alle Informazioni di rilievo

Nuova funzione di ricerca del sito WIKA.

OGGETTO DELL INFORMATICA AZIENDALE 1 1/002.0

Progetto Turismo Pisa

OBIETTIVI FORME E STRUMENTI DI SUPPORTO ALL ELABORAZIONE INTEGRATA DEI DATI 51 3/001.0

Comprendere il Cloud Computing. Maggio, 2013

La tecnologia cloud computing a supporto della gestione delle risorse umane

Database. Si ringrazia Marco Bertini per le slides

Monitoraggio e performance: il ruolo del DBA manager e gli strumenti a supporto

12. Evoluzione del Software

Corso di Basi di Dati e Conoscenza

1. BASI DI DATI: GENERALITÀ

Le Soluzioni Tango/04 per adempiere alla normativa sugli amministratori di sistema

Una miniera di dati sul comportamento degli utenti del Web

SISTEMA DI TELECONTROLLO PER LA GESTIONE DELLA FLOTTA

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Regole di Associazione

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. D. Talia - UNICAL. Sistemi Operativi 9.1

ARCHIVIAZIONE DOCUMENTALE NEiTdoc

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen

Introduzione al data base

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Tecniche di personalizzazione di interfacce Web

La progettazione dell Urban Control Center di una Smart City per il monitoraggio e la gestione energetico-ambientale della città

Sistemi di gestione delle basi di dati. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

Integrazione dei processi aziendali Sistemi ERP e CRM. Alice Pavarani

Metodi e tecniche per la rilevazione e il contrasto di botnet in reti universitarie

AUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT

Introduzione ai sistemi di basi di dati

SIA-EAGLE Intermediari per i Conflitti di interessi e la MiFID Deborah Traversa, SIA-SSB, Responsabile Marketing Divisione Capital Markets

I Sistemi Informativi Geografici. Laboratorio GIS 1

Incident Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Coordinazione Distribuita

Come archiviare i dati per le scienze sociali

TECNICHE DI SIMULAZIONE

RRF Reply Reporting Framework

Torino Milano Reggio Emilia Roma

Gestione dell Informazione Geo-Spaziale. Presentazione del corso Maria Luisa Damiani A.A

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;

SysAround S.r.l. L'efficacia delle vendite è l elemento centrale per favorire la crescita complessiva dell azienda.

ResAcademy. Federico Bonelli. Coordinamento Tecnico Scientifico

Modelli matematici avanzati per l azienda a.a

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. Implementazione del File System. Struttura del File System. Implementazione

Configuration Management

Gestire l informazione in un ottica innovativa. Enrico Durango Manager of Information Management Software Sales - IBM Italia

Alessandra Raffaetà. Basi di Dati

ICT & Airport Business Integration

Transcript:

Knowledge Discovery e Data Mining interessi di ricerca, risultati e progetti Salvatore Orlando Alessandra Raffaetà Data Mining Motivazioni: Evoluzione delle tecnologie per la raccolta e la memorizzazione dei dati Lettori di codici a barre, scanner, foto digitali, ecc. Database Relazioni, Data warehouses, altri repository Disponibilità di enormi sorgenti di dati: Terrorbytes! I dati contengono molte informazioni nascoste Pattern frequenti, regole ricorrenti, modelli di conoscenza, ecc. Nuove conoscenze valide, e potenzialmente utili Data Mining ovvero tecnologie e strumenti per l estrazione di conoscenza da grandi basi di dati in modo semi-automatico

KDD: Knowledge Discovery in Databases Data mining: il cuore del processo di KDD Pattern Evaluation Task-relevant Data Data Mining Data Warehouse Selection Data Cleaning Data Integration Databases KDD come confluenza di molte discipline

Il processo di analisi usando strumenti di Data Mining Discovery-driven Il computer setaccia milioni di ipotesi e presenta solo le più interessanti/valide all analista Differente dal tipico metodo statistico verification-driven, basato sul campionamento dei dati e sulla verifica di ipotesi fornite dall analista Esempio : A partire dai dati relativi ad un gran numero di clienti che hanno trasferito il proprio conto su una banca concorrente identifica le caratteristiche più importanti dei clienti che sono correlati strettamente (modello di conoscenza). Usando tali caratteristiche, classifica il resto dei clienti e valuta quanto fortemente sono correlati al gruppo campione. Market Basket Analysis Market-Basket Transactional database TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Esempio di regola associativa: Supporto = 60% Confidenza = 75%

Pattern sequenziali 10/01/2002 12/02/2002 23/12/2002 20/04/2002 10/11/2002 Database delle sequenze 16/05/2002 10/06/2002 Sequenza frequente estratta Classificazione age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no Training data age? <=30 >40 student? YES 31..40 credit rating? Modello = Albero di decisione no yes excellent fair NO YES NO YES

Clustering Scopo: raggruppare oggetti/dati in cluster in modo da Massimizzare la similarità intra-cluster Minimizzare la similarità inter-cluster rispetto ad una certa metrica di similarità Dati originali (bidimensionali) Clusters Interessi di ricerca Alte Prestazioni Database enormi Limitazioni di memoria su computer sequenziali out-of-core passi multipli (e potenzialmente costosi) di I/O sui dati Scalabilità possibilità di gestire dati più grandi per aumentare l accuratezza della conoscenza acquisita ottenere risultati in meno tempo vantaggi competitivi se la conoscenza è usata per migliorare marketing o processi di business

Interessi di ricerca Sorgenti di dati stream Misure monitoraggio di reti Dettagli chiamate telefoniche Transazioni di acquisto in catene di distribuzione, transazioni ATM Record di log generati da Web Servers e Search Engines Dati raccolti da reti di sensori Dati relativi a traiettorie di oggetti mobili Caratteristiche delle applicazioni Grandi volumi di dati (terabytes) Record che giungono rapidamente e in burst Goal: Estrarre patterns, processare query e calcolare statistiche su stream in real-time Interessi di ricerca Stream multipli e distribuiti Ambienti distribuiti Dati collezionati da entità diverse, spesso appartenenti a organizzazioni differenti Problemi di eterogeneità dei dati Centralizzazione non possibile Comunicazioni eterogenee tra i partner, con vincoli di banda es., reti wireless Dati privacy sensitive Necessità di algoritmi distribuiti, ad accoppiamento lasco

Persone e Collaborazioni Knowledge Discovery e Data Mining Salvatore Orlando Claudio Silvestri (Post-Doc) Claudio Lucchese (PhD Student) Fernando Bras (PhD Student) Modelli per data warehouse Spazio Temporale, ragionamento logico su conoscenza Spazio Temporale Renzo Orsini Alessandra Raffaetà Alessandro Roncato Salvatore Orlando Fernando Bras (PhD Student) Grid Computing Salvatore Orlando Matteo Mordacchini (PhD Student) Francesco Lelli (PhD Student) Collaborazioni ISTI C.N.R./ Università - Pisa HPC Lab KDD Lab Università di Milano Università della Calabria e ICAR/C.N.R. Alcuni risultati Algoritmi per l estrazione di pattern frequenti e chiusi DCI, kdci, ParDCI, CCSM DCI_Closed AP interp e AP stream Applicazioni Web Usage Mining Query logs of Web Search Engines Web Server logs

DCI_Closed Pattern Chiusi e Frequenti Se {birra,patatine} sono acquistati sempre assieme al {latte} analista interessato solo a pattern e regole che contengono {birra,patatine,latte} Lucchese, Orlando, Perego. "Fast and Memory Efficient Mining of Frequent Closed Itemsets", IEEE Transactions on Knowledge and Data Engineering, Jan 2006 (Vol. 18, No. 1), pp. 21-36 AP interp e AP stream Estrazione di pattern frequenti da stream multipli distribuiti Un framework che combina AP stream e AP interp AP stream C. Silvestri, S. Orlando. Approximate Mining of Frequent Patterns on Streams. Int. Journal of Intelligent Data Analisys, IOS Press.

Analisi di Log dei Web Search Engine Caching dei risultati delle query Analysi delle query più frequenti Molte delle query riappaiono ciclicamente a grande distanza metodi di cache replacement LRU, basati solo su quanto recentemente è stata riferita una query, possono fallire Static cache + Prefetching SDC (Static & Dynamic Cache) Strategia di caching che cerca di sfruttare la località temporale e spaziale Query più frequenti memorizzate in una porzione statica e read-only della cache. Uso e confronto di diverse politiche dinamiche nella porzione dinamica Adaptive prefetching per migliorare l hit-ratio (spatiale sull insieme dei risultati) Fagni, Silvestri, Orlando, Perego. Boosting the Performance of Web Search Engines: Caching and Prefetching Query Results by Exploiting Historical Usage Data. ACM Trans. on Inf. Sys., To apper, 2006.

Analisi di Log dei Web Search Engine Migliorare le prestazioni di un Parallel WSE Term-Partitioned Index Indici relativi ad ogni termine t i sono assegnati completamente ad uno degli IR Core Per risolvere una query, solo gli IR Core responsabili per i termini della query devono essere interrogati Problema dell assegnamento dei termini agli IR Core cercare l assegnamento che migliora il tempo di completamento compromesso tra bilanciamento del carico tra gli IR Core incremento del numero di query risolte completamente da un singolo (pochi) IR Core, senza (con poco) overhead di comunicazione Analisi di Log dei Web Search Engine Migliorare le prestazioni di un Parallel WSE Analisi dei log con strumenti di mining per determinare correlazioni frequenti tra termini all interno delle query del log per inferire il carico medio generato da un certo assegnamento parziale di termini Algoritmo di ottimizzazione modificato (Bin Packing) che assegna sfruttando le conoscenze acquisite dalle analisi dei log altri query log sono usati poi per il testing dell assegnamento Lucchese, Orlando, Perego, Silvestri. Statistically Driven Term Partitioning to Enhance Performance of Parallel IR Systems. Submitted to ACM SIGIR 06.

PRIN 04/EU GeoPKDD GeoPKDD - Geographic Privacy-aware Knowledge Discovery and Delivery Partecipanti: S. Orlando, R. Orsini, A. Raffaetà, A. Roncato, F. Bras (PhD Student), C. Silvestri (Assegnista), C. Lucchese (PhD Student). Motivazioni: Nuove tecnologie hanno permesso di raccogliere una grande collezione di dati referenziati sia nello spazio che nel tempo Cellulari, GPS, altri dispositivi location-aware. Obiettivo: Teorie, tecniche e sistemi per la scoperta e presentazione di conoscenza da grandi sorgenti distribuite e streaming di dati geografici, referenziati sia nello spazio che nel tempo; nuovi metodi che garantiscano automaticamente la privacy. Scenario Aggregative Location-based services Bandwidth/Power optimization Mobile cells planning Traffic Management Accessibility of services Mobility evolution Urban planning. Telecommunication company (WIND) Privacy-aware Data mining interpretation visualization Public administration or business companies GeoKnowledge trajectory reconstruction p(x)=0.02 ST patterns warehouse Trajectories warehouse Privacy enforcement

Tematiche di ricerca Nuovi modelli per oggetti mobili Data warehouse per memorizzare le traiettorie degli oggetti mobili e relativi aggregati Clustering Nuovi metodi di data mining che preservino la privacy Nuovi metodi di data mining per dati distribuiti e streaming Ragionamento spaziotemporale, anche sulla base di conoscenza di dominio 60% 7% 20%? Classification 5% 8% Frequent pattern Modelli per traiettorie t Real trajectory of moving object: Traj: T R 2 t Route and trajectory reconstruction X Y t Sampling Y X X Y t [t 1,t 2 ] (x-x 1 )(t 2 -t 1 )-(x 2 -x 1 )(t-t 1 ) = 0

Data warehouse di traiettorie Data warehouse: è una raccolta di dati integrata, orientata ai soggetti, storica, con dati tipicamente aggregati e non volatile di supporto ai processi decisionali. Modello dei dati multidimensionale: Data Cube. Fatti, misure e dimensioni. Traiettorie arrivano in stream come triple: (ID, SpatialPos, TemporalPos). Come memorizzare tali dati all interno di un data warehouse? Necessità di discretizzare la dimensione spaziale e temporale. Quali sono le misure e le relative operazioni di aggregazione? Numero di oggetti Velocità Distanza percorsa