Introduzione al Data Mining



Documenti analoghi
Introduzione al Data Mining Parte 1

Data Mining e Analisi dei Dati

Data Warehousing (DW)

PDF created with pdffactory trial version Il processo di KDD

Lezione 1. Introduzione e Modellazione Concettuale

Data mining e rischi aziendali

Rassegna sui principi e sui sistemi di Data Warehousing

B C I un altro punto di vista Introduzione

Marketing relazionale

1. BASI DI DATI: GENERALITÀ

Data warehouse Introduzione

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Business Intelligence & Data Mining. In ambiente Retail

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

Knowledge Discovery e Data Mining

Cosa è un data warehouse?

Data Warehousing e Data Mining

Data Mining a.a

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

ISIS C.Facchinetti Sede: via Azimonti, Castellanza Modulo Gestione Qualità. DISCIPLINA Informatica A.S X di dipartimento

I sistemi di reporting e i rapporti direzionali

DSCube. L analisi dei dati come strumento per i processi decisionali

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Introduzione all Information Retrieval

IL CONTROLLO DI GESTIONE

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

La Metodologia adottata nel Corso

Uno standard per il processo KDD

Sistemi di supporto alle decisioni

Introduzione ad OLAP (On-Line Analytical Processing)

Big Data e archivi dell Amministrazione finanziaria: metodologie innovative di analisi e integrazione, potenzialità e limiti

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Progettaz. e sviluppo Data Base

La società Volocom. Trasformare le informazioni in conoscenza. Conoscere per agire

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Sviluppo Applicazione di BI/DWH. con tecnologia Microsoft. per il supporto della catena logistica

Convegno 6 giugno 2013 Federlazio Frosinone

Liceo Marie Curie (Meda) Scientifico Classico Linguistico PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Analisi e catalogazione automatica dei Curriculum Vitae

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Business Intelligence CRM

SISTEMI INFORMATIVI AZIENDALI

CURRICOLO SCIENZE SCUOLA PRIMARIA Classe 1, 2, 3

REALIZZARE UN MODELLO DI IMPRESA

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alla Business Intelligence.

Un approccio mixed-mode sequenziale all acquisizione dati

Modelli matematici avanzati per l azienda a.a

Cosa è un foglio elettronico

Sistemi di misurazione e valutazione delle performance

Corso di Basi di Dati e Conoscenza

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

Relazione sul data warehouse e sul data mining

MODULO 5 Appunti ACCESS - Basi di dati

Anno scolastico 2015 / Piano di lavoro individuale. ITE Falcone e Borsellino. Classe: IV ITE. Insegnante: DEGASPERI EMANUELA

Attenzione! il valore della Rimodulazione è superiore alla cifra di Negoziazione

WebBi S.r.l offre consulenza e soluzioni per le seguenti aree: Data Warehousing. Business Intelligence. Disegno di architetture integrate

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Il motore di previsione statistica SAS Forecast Server a

Introduzione alla Business Intelligence

Data Warehousing. Esercitazione 1

Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi)

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

SISTEMI INFORMATIVI AZIENDALI

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Geoemdia. Indice dei Concetti di Base. Claudio Rocchini Istituto Geografico Militare

Caratteristiche principali. Contesti di utilizzo

Sistemi Informativi Aziendali I

Introduzione alle basi di dati (prima parte)

COMPETENZE IN ESITO (5 ANNO) ABILITA' CONOSCENZE

Le Basi di Dati. Le Basi di Dati

Base di dati e sistemi informativi

MICHELANGELO REPORT è un

Informatica (Basi di Dati)

I database relazionali (Access)

ITI M. FARADAY Programmazione modulare a.s

Facoltà di Farmacia - Corso di Informatica

Plurima Protocollo. Soluzione di gestione Protocollo Informatico e Flusso documentale

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

La velocità di un applicazione nativa unita alla condivisione dei dati in tempo reale via web

Il Dipartimento individua conoscenze, abilità e competenze in uscita nel biennio e nel triennio ripartite come segue:

Sistemi informativi secondo prospettive combinate

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

SCUOLA PRIMARIA Anno Scolastico 2014/2015 CURRICOLO DI TECNOLOGIA OBIETTIVI DI APPRENDIMENTO AL TERMINE DELLA CLASSE TERZA DELLA SCUOLA PRIMARIA

Transcript:

Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori

Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato negli anni 60 Ogni stadio è caratterizzato da un nuovo insieme di funzionalità Introduzione al Data Mining 2

IT: stadi evolutivi (Han & Kamber, 2001) Anni 60: Raccolta dati e creazione dei database Elaborazione elementare di file 70 - primi 80: DBMS Modelli dei dati e sistemi gerarchici, reticolari, relazionali Modelli concettuali (ER) Indici Linguaggi di interrogazione non procedurali (SQL) Ottimizzazione delle interrogazioni Gestione delle transazioni e delle autorizzazioni Introduzione al Data Mining 3

IT: stadi evolutivi (Han & Kamber, 2001) Metà 80 - presente: Sistemi database avanzati Modelli e sistemi Object-Oriented, Object-Relational, deduttivi Sistemi orientati all applicazione: Spazio-temporali, statisticoscientifici, multimediali, basati sulla conoscenza (KBMS) 90 - presente: Sistemi database basati sul Web Sistemi di database XML Web mining Tardi 80 - presente: Data Warehousing e Data Mining Data Warehouse, On-Line Analytical Processing Data Mining, Knowledge Discovery in Databases Introduzione al Data Mining 4

Tombe dei dati? La necessità è la madre delle invenzioni Esplosione dei dati Strumenti di raccolta automatica dei dati, maturità della tecnologia database Enormi quantità di dati memorizzati e disponibili La capacità di raccogliere e memorizzare dati ha largamente superato la capacità umana di analizzarli Archivi di dati cimiteri di dati Anneghiamo nei dati ma siamo affamati di conoscenza Tuttavia, i dati contengono informazioni di grande interesse economico e scientifico: la ricerca in DM e KDD ha come scopo la progettazione di strumenti per trasformare i dati in informazione Data Warehousing e Data Mining Integrazione e analisi/sintesi Estrazione di conoscenza interessante e non nota a priori da grandi basi di dati Introduzione al Data Mining 5

Una storia... Il dipartimento dell agricoltura degli Stati Uniti ogni anno eroga indennizzi per danni da maltempo a centinaia di migliaia di agricoltori Una frazione delle richieste di indennizzo è fraudolenta Un analisi a campione delle richieste per verificarne l'autenticità ha un costo molto elevato rispetto alla resa Un progetto di Data Mining volto a individuare le frodi ha reso oltre venti volte il suo costo Introduzione al Data Mining 6

Definizione di Knowledge Discovery The nontrivial extraction of implicit, previously unknown and potentially useful information from data W. Frawley, G. Piatetsky-Shapiro, and C. Matheus: Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pgs 213-228 Introduzione al Data Mining 7

Knowledge Discovery scoprire (e presentare) conoscenza in una forma facilmente comprensibile, e utilizzabile a scopi gestionali/decisionali tecniche statistiche di visualizzazione di machine learning scalabilità efficienza computazionale su DB di notevoli dimensioni (Giga/Tera-bytes) Introduzione al Data Mining 8

Knowledge Discovery (ii) non solo algoritmi processo complesso di manipolazione dei dati data integration formato eterogeneo (es.: rappresentano gli stessi dati con schemi differenti) riconciliazione delle varie fonti data cleaning dati affetti da rumore (errori, dati non interessanti, ecc.) pre-processing per pulire i dati Introduzione al Data Mining 9

Interdisciplinarietà Database e Data Warehousing Statistica Apprendimento automatico Acquisizione della conoscenza Metodi di visualizzazione Introduzione al Data Mining 10

Fattibilità Abbondanza di dati Disponibilità di potenza di calcolo Forte fondamento matematico Apprendimento automatico e logica inferenziale Statistica e sistemi dinamici DBMS Introduzione al Data Mining 11

Knowledge Discovery in Databases Un processo Selezione ed elaborazione di dati per Identificare schemi (pattern) nuovi, accurati e utili Modellare fenomeni del mondo reale Data Mining è il componente principale del processo Sviluppo di modelli predittivi ed esplorativi Introduzione al Data Mining 12

Il processo KDD Interpretation and Evaluation Data Consolidation Selection and Preprocessing Warehouse Data Mining Prepared Data p(x)=0.02 Patterns & Models Knowledge Consolidated Data Data Sources Introduzione al Data Mining 13

Il ciclo virtuoso 9 Problema The KDD Process Data Consolidation Selection and Preprocessing Warehouse Data Mining Prepared Data Interpretation and Evaluation p(x)=0.02 Patterns & Models Knowledge Conoscenza Consolidated Data Identificare problema o opportunità Data Sources CogNova Technologies Agire in base alla conoscenza Strategia Misurare l'effetto dell'azione Risultati Introduzione al Data Mining 14

Passi del processo KDD Conoscere il dominio applicativo conoscenza pregressa rilevante, obiettivi Consolidamento dei dati creare un insieme di dati target Selezione e pre-processing data cleaning (fino al 60% dello sforzo) riduzione e proiezione dei dati trovare caratteristiche utili, riduzione di dimensionalità, rappresentazione di invarianti Scegliere le funzioni di data mining sommari, classificazione, regressione, associazione, clustering Scegliere gli algoritmi di mining Individuare i pattern interessanti Interpretazione e valutazione visualizzazione, rimozione di pattern ridondanti Introduzione al Data Mining 15

Data Mining e Business Intelligence Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Business Analyst Data Analyst Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA Introduzione al Data Mining 16

Ambiente di Business Intelligence Introduzione al Data Mining 17

La generazione dei dati La tecnologia dei dispositivi automatici di raccolta e memorizzazione dei dati ha compiuto sostanziali progressi, sia incrementando prestazioni e capacità che abbattendo i costi Lettori di codici a barre Stazioni di misura atmosferiche Satelliti geografici Tali progressi permettono la memorizzazione di enormi moli di dati negli archivi di un numero sempre crescente di organizzazioni pubbliche e private Introduzione al Data Mining 18

Esempio: dati gestionali Una catena di ipermercati ha un flusso di informazioni completamente automatizzato lettura di codici a barre alle casse lettura di codici a barre nei magazzini... I dati relativi alle vendite possono essere interpretati per migliorare l'efficienza/efficacia dell azione commerciale offerte speciali andamenti stagionali fidelizzazione clienti Introduzione al Data Mining 19

Esempio: dati geografici Earth Observing System (NASA) è un sistema di raccolta di dati satellitari che memorizza 1450 dataset di 350 Gbyte ciascuno al giorno. La quantità di dati generati in 2 settimane equivale a quella generata da LandSAT in 17 anni. Introduzione al Data Mining 20

Esempio: dati astronomici Nel 1988 in un articolo del Wall Street J. alcuni scienziati impegnati in ricerche spaziali manifestavano sfiducia circa la possibilità di analizzare i dati provenienti dallo spazio Nello stesso articolo, la quantità di dati analizzabili realisticamente (al tasso di generazione del 1988) era stimata essere intorno al 10% La sonda planetaria Magellano ha inviato 1000 miliardi di byte in 5 anni Introduzione al Data Mining 21

Esempio: dati atmosferici Tutti i database al National Center for Atmospheric Research NCAR, http://www.ucar.edu/ucar/news.html 1986: 1 terabyte = 1024 gigabyte = 2 40 byte = circa 10 12 byte 2003: 1 petabyte = 1024 terabyte Introduzione al Data Mining 22

I pattern scoperti sono tutti interessanti? Un sistema DM può generare migliaia di pattern: alcuni possono non essere interessanti. Approccio tipico: Human-centered, query-based, focused mining Misure di interestingness : un pattern è interessante se è: facilmente comprensibile per un essere umano valido su nuovi dati con un certo grado di sicurezza potenzialmente utile o nuovo valida qualche ipotesi che l utente ha formulato Misure obiettive/soggettive: Oggettive: basate su statistiche e/o strutture dei pattern supporto, confidenza... Soggettive: basate sulla conoscenza dell utente sui dati novità, utilizzabilità... Introduzione al Data Mining 23

Possiamo trovare tutti e solo i pattern interessanti? Completezza (tutti): Associazioni vs. classificazione vs. clustering Ottimizzazione (solo): Approcci genera tutti i pattern e filtra quelli non interessanti genera solo i pattern interessanti mining query optimization Introduzione al Data Mining 24