KNOWLEDGE DISCOVERY E DATA MINING



Похожие документы
DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

Data Warehousing (DW)

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Uno standard per il processo KDD

PDF created with pdffactory trial version Il processo di KDD

Data mining e rischi aziendali

SISTEMI INFORMATIVI AZIENDALI

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

SQL/OLAP. Estensioni OLAP in SQL

Corso di. Dott.ssa Donatella Cocca

Ricerca di outlier. Ricerca di Anomalie/Outlier

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Organizzazione degli archivi

DBMS (Data Base Management System)

Dispensa di database Access

LE CARTE DI CONTROLLO (4)

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

1 CARICAMENTO LOTTI ED ESISTENZE AD INIZIO ESERCIZIO

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

Operazioni sui database

Lezione V. Aula Multimediale - sabato 29/03/2008

Automazione Industriale (scheduling+mms) scheduling+mms.

Regole di Associazione

La BDCR Assilea per la valutazione del profilo di rischio delle imprese

Gestione campagne di Marketing per il C.R.M.

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Università di Pisa A.A

Data mining for e- commerce sites

Basi di Dati Relazionali

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Il DataMining. Susi Dulli

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione

Mining Positive and Negative Association Rules:

FATTURATO E ORDINATIVI DELL INDUSTRIA

Data warehouse Introduzione

Data Mining. Gabriella Trucco

SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2011/12

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

IL SISTEMA INFORMATIVO

Dominio applicativo. Analisi e ricognizione delle fonti dati

MODELLO RELAZIONALE. Introduzione

Compito DA e BD. Tempo concesso: 90 minuti 12 giugno 03 Nome: Cognome: Matricola: Esercizio 1

Progettazione di Basi di Dati

Integrazione al Manuale Utente 1

Introduzione all Information Retrieval

Basi Di Dati, 09/12/2003

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

Progettaz. e sviluppo Data Base

Data Mining e Analisi dei Dati

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

I sistemi di reporting e i rapporti direzionali

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

SQL - Funzioni di gruppo

Nuova funzione di ricerca del sito WIKA.

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

Data management a.a Il linguaggio SQL

1. BASI DI DATI: GENERALITÀ

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

Analisi dei requisiti e casi d uso

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

Elementi di Psicometria con Laboratorio di SPSS 1

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Business Process Management

Introduzione ai database relazionali

Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing

Corso di. Analisi e contabilità dei costi

SQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Utilizzando Microsoft Access. Si crea la tabella Anagrafica degli alunni,le Materie e i voti si mettono alcuni campi

PROGRESS: UN CODICE PER IL CALCOLO DELLE EMISSIONI DA VEICOLI STRADALI IN AMBITO URBANO

Rassegna sui principi e sui sistemi di Data Warehousing

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

La costruzione di strumenti per la verifica delle competenze. LA PROVA ESPERTA

Certificazione della consegna ed incentivazione della restituzione a punto vendita del volantino: il test Panorama

Ciclo di vita dimensionale

Il linguaggio SQL: trigger. Versione elettronica: 04.7.SQL.trigger.pdf

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Il progetto ECO LEARNING

Basi di dati 9 febbraio 2010 Compito A

Elementi di Psicometria con Laboratorio di SPSS 1

TECNICHE DI SIMULAZIONE

jeenuin Jeenuin Uno strumentoinnovativoper l ascoltosemantico 17 Ottobre

Tecniche di riconoscimento statistico

Il mercato della Business Intelligence è attualmente in forte crescita. Il fenomeno si può spiegare in vari modi: la maturità raggiunta dai sistemi

Text Mining nella PA

Транскрипт:

KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI DEI S.I. INTEGRAZIONE DEI DATI GESTIONE DI DATI DISTRIBUITI ED ETEROGENEI BASI DI DATI REAL-TIME MAIN MEMORY TEMPORALI INFORMAZIONE NON STRUTTURATA SEMISTRUTTURATA E MULTIMEDIALE SISTEMI INFORMATIVI SU WEB SISTEMI EMBEDDED COMPONENTI MOBILI E DIPENDENTI DAL CONTESTO SISTEMI DI INFORMATION RETRIEVAL data warehouse

LA SCOPERTA DI CONOSCENZA (KNOWLEDGE DISCOVERY) OGNI CONOSCENZA UMANA PARTE DA INTUIZIONI, PROCEDE ATTRAVERSO CONCETTI E CULMINA IN IDEE E. Kant data warehouse 2 LA GERARCHIA DELLA CONOSCENZA VARIABILI FATTURE ANDAMENTO VENDITE REGOLE DI MERCATO DECISIONI STRATEGICHE ELEMENTI (VOLUME) DATI INFORMAZIONI CONOSCENZA SAGGEZZA VALORE AGGIUNTO ELABORAZIONI STATISTICHE PROCEDURE DI SCOPERTA DI CONOSCENZA ESPERIENZA data warehouse 3

KNOWLEDGE DISCOVERY E DATA MINING SCOPERTA DI CONOSCENZA NELLE BASI DI DATI (KDD) IDENTIFICARE LE INFORMAZIONI PIU SIGNIFICATIVE PRESENTARLE IN MODO OPPORTUNO ALL UTENTE DATA MINING APPLICAZIONE DI ALGORITMI AI DATI GREZZI AL FINE DI ESTRARNE CONOSCENZA (RELAZIONI, PERCORSI, ) OBIETTIVO PREDITTIVO (ANALISI DEI SEGNALI, RICONOSCIMENTO DEL PARLATO, ECC.) OBIETTIVO DESCRITTIVO (SISTEMI DI SUPPORTO ALLE DECISIONI) data warehouse 4 IL PROCESSO DI SCOPERTA DI CONOSCENZA () ANCHE IN PRESENZA DI EFFICACI STRUMENTI RICHIEDE COMPETENZA DELLE TECNICHE UTILIZZATE OTTIMA CONOSCENZA DEL DOMINIO DI APPLICAZIONE PASSI SUCCESSIVI SELEZIONE SCELTA DEI DATI CAMPIONE SUI QUALI FOCALIZZARE L ANALISI PRE-ELABORAZIONE CAMPIONAMENTO DEI DATI PER RIDURNE IL VOLUME PULIZIA DI DATI ERRATI E/O MANCANTI data warehouse 5

IL PROCESSO DI SCOPERTA DI CONOSCENZA (2) TRASFORMAZIONE OMOGENEIZZAZIONE E/O CONVERSIONE DEI TIPI DI DATI DATA MINING SCELTA DEL TIPO DI METODO/ALGORITMO INTERPRETAZIONE E VALUTAZIONE FILTRAGGIO DELL INFORMAZIONE OTTENUTA EVENTUALE RAFFINAMENTO CON RIPETIZIONE DI PASSI PRECEDENTI PRESENTAZIONE VISUALE (GRAFICA O LOGICA) DEL RISULTATO DELLA RICERCA data warehouse 6 IL PROCESSO DI SCOPERTA DI CONOSCENZA (3) DATA MINING INTERPRETAZIONE CONOSCENZA TRASFORMAZIONE PRE-ELABORAZIONE DATI PRE- ELABORATI DATI TRASFORMATI CORRELAZIONI E PERCORSI SELEZIONE DATI TARGET DATI GREZZI da: G. Piatesky-Shapiro 996 data warehouse 7

APPLICAZIONI DEL DATA MINING VENDITA AL DETTAGLIO E PER CORRISPONDENZA QUALI OFFERTE SPECIALI FARE COME DISPORRE LE MERCI SUGLI SCAFFALI MARKETING PREVISIONI DI VENDITA PERCORSI DI ACQUISTO DEI PRODOTTI BANCHE CONTROLLO DEI PRESTITI USO (ED ABUSO) DELLE CARTE DI CREDITO TELECOMUNICAZIONI AGEVOLAZIONI TARIFFARIE data warehouse 8 APPLICAZIONI DEL DATA MINING ASTRONOMIA E ASTROFISICA CLASSIFICAZIONE DI STELLE E GALASSIE RICERCA CHIMICO FARMACEUTICA SCOPERTA DI NUOVI COMPOSTI RELAZIONI TRA COMPOSTI BIOLOGIA MOLECOLARE PATTERN NEI DATI GENETICI E NELLE STRUTTURE MOLECOLARI TELERILEVAMENTO E METEREOLOGIA ANALISI DEI DATI SATELLITARI STATISTICA ECONOMICA E DEMOGRAFICA ANALISI DEI CENSIMENTI data warehouse 9

STRUTTURA DEGLI ALGORITMI DI DATA MINING RAPPRESENTAZIONE DEL MODELLO FORMALISMI PER LA RAPPRESENTAZIONE E LA DESCRIZIONE DEI PERCORSI INDIVIDUABILI VALUTAZIONE DEL MODELLO STIMA STATISTICA O LOGICA DELLA RISPONDENZA DI UN PERCORSO AI CRITERI DI RICERCA METODO DI RICERCA DEI PARAMETRI RICERCA DEI PARAMETRI CHE OTTIMIZZANO I CRITERI DI VALUTAZIONE, FISSATI L INSIEME DELLE OSSERVAZIONI E LA RAPRESENTAZIONE DEL MODELLO DEL MODELLO I PARAMETRI VENGONO APPLICATI A MODELLI DI UNA STESSA FAMIGLIA, CHE SI DIVERSIFICANO PER IL TIPO DI RAPPRESENTAZIONE, PER VALUTARNE LA QUALITA data warehouse 0 TIPI DI INFORMAZIONI OTTENUTE ASSOCIAZIONI INSIEME DI REGOLE CHE SPECIFICA L OCCORRENZA CONGIUNTA DI DUE (O PIU ) ELEMENTI SEQUENZE POSSIBILITA DI STABILIRE CONCATENAZIONI TEMPORALI DI EVENTI CLASSIFICAZIONI RAGGRUPPAMENTI DI ELEMENTI IN CLASSI SECONDO UN MODELLO PREDEFINITO RAGGRUPPAMENTI (CLUSTER) RAGGRUPPAMENTI DI ELEMENTI IN CLASSI NON DEFINITE A PRIORI TENDENZE (TREND) SCOPERTA DI ANDAMENTI TEMPORALI CARATTERISTICI CON VALENZA PREVISIONALE data warehouse

TECNICHE (MODELLI) PER DATA MINING RETI NEURALI STRUMENTO MOLTO POTENTE CAPACITA DI APPRENDIMENTO LAVORANO IN MODO OPACO INDUZIONE ALBERI DI DECISIONE (GERARCHIA DI DECISIONI if - then) INDUZIONE DI REGOLE (INSIEMI NON GERARCHICI DERIVATI DAGLI ALBERI DI DECISIONE) SONO AUTOESPLICATIVE data warehouse 2 TECNICHE (MODELLI) PER DATA MINING SCOPERTA DI REGOLE REGOLE DI ASSOCIAZIONE (EVENTI SIMULTANEI X Y) ASSOCIAZIONI SEQUENZIALI VISUALIZZAZIONE DEI DATI I DATI VENGONO PREPARATI E PRESENTATI IN VESTE GRAFICA PER EVIDENZIARE EVENTUALI IRREGOLARITA O PATTERN STRANI data warehouse 3

TECNICHE PER DATA MINING TECNICHE INFORMAZIONI ASSOCIAZIONI SEQUENZE CLASSIFICAZIONI CLUSTER TENDENZE RETI NEURALI INDUZIONE SCOPERTA DI REGOLE VISUALIZZAZIONE DEI DATI data warehouse 4 IL CESTINO DELLA SPESA E IL MODELLO PIU NOTO SUL QUALE SI APPLICANO LE TECNICHE DI DATA MINING E USATO PRINCIPALMENTE, MA NON SOLO, PER I PROBLEMI DI VENDITA AL DETTAGLIO LO SCOPO E QUELLO DI SCOPRIRE PATTERN RICORRENTI NEI DATI (REGOLE DI ASSOCIAZIONE) data warehouse 5

IL CESTINO DELLA SPESA I = {i,..., i k } B = {b,..., b n } b i I INSIEME DI k ELEMENTI (ITEM) INSIEME DI n SOTTOINSIEMI (BASKET) DI I I PRODOTTI IN UN SUPERMERCATO PAROLE IN UN DIZIONARIO B ACQUISTI DI UN SINGOLO CLIENTE SINGOLO DOCUMENTO IN UN CORPUS REGOLA DI ASSOCIAZIONE i i 2 i E i 2 COMPAIONO ASSIEME IN ALMENO s% DEGLI n BASKET (SUPPORTO) DI TUTTI I BASKET CHE CONTENGONO i ALMENO c% CONTENGONO ANCHE i 2 (CONFIDENZA) data warehouse 6 ESEMPI DI REGOLE REGOLE CHE HANNO DIET COKE COME CONSEGUENTE AIUTANO A DEFINIRE LE STRATEGIE PER AUMENTARE LE VENDITE DI UN PRODOTTO REGOLE CHE HANNO GRISSINI TRA ANTECEDENTI AIUTANO A CAPIRE L IMPATTO DELLA CESSAZIONE DELLA VENDITA DI UN PRODOTTO REGOLE CHE HANNO WURSTEL TRA GLI ANTECEDENTI E SENAPE COME CONSEGUENTE EVIDENZIANO GLI ABBINAMENTI DI PRODOTTI PRESENTI NELL ANTECEDENTE CHE INDUCONO LA VENDITA DEL CONSEGUENTE data warehouse 7

ESEMPI DI REGOLE REGOLE CHE COLLEGANO ELEMENTI NELLO SCAFFALE A A ELEMENTI NELLO SCAFFALE B AIUTANO UNA PIU EFFICACE ALLOCAZIONE DEI PRODOTTI NEGLI SCAFFALI LE MIGLIORI k REGOLE CHE HANNO GRISSINI NEL CONSEGUENTE IN TERMINI DEL FATTORE DI CONFIDENZA INTERMINI DEL FATTORE DI SUPPORTO data warehouse 8 QUALCHE PROBLEMA c NEL CESTINO C E CAFFE c NEL CESTINO NON C E CAFFE t NEL CESTINO C E THE t NEL CESTINO NON C E THE t t Σcolonne c c Σ righe 20 5 2 5 70 5 75 90 0 00 t c s = 20% E VERA??? c = P[t c] / P[t] =20/25= 80% FORSE SI, MA... COLORO CHE COMPRANO COMUNQUE IL CAFFE SONO PARI AL 90%!!! ATTENZIONE! ESISTE UNA CORRELAZIONE TRA THE E CAFFE r = P[t c] / (P[t] x P[c] ) = 0.89 data warehouse 9

DATA MINING IN AMBIENTE RELAZIONALE ESTENSIONE DI SQL CON OPERATORI DI DATA MINING INTEGRATI NEL LINGUAGGIO INTEGRARE UN SERVER SQL CON UN MOTORE DI DATA MINING MINE RULE PER LE REGOLE DI ASSOCIAZIONE MINE CLASSIFICATION PER I PROBLEMI DI CLASSIFICAZIONE MINE INTERVAL PER LA DISCRETIZZAZIONE DI ATTRIBUTI CONTINUI data warehouse 20 MINE RULE: ESEMPIO MINE RULE AssociazioneSemplice AS SELECT DISTINCT..n item AS BODY,.. item AS HEAD, SUPPORT, CONFIDENCE FROM Purchase GROUP BY transaction EXTRACTING RULES WITH SUPPORT: 0., CONFIDENCE: 0.2 TR CLIENTE OGGETTO DATA PREZZO QUANT. Rossi pantal. da ski 7/2 90.000 Rossi scarponi mont. 7/2 80.000 Bianchi camicia sport 8/2 70.000 2 2 Bianchi scarpe marron 8/2 250.000 3 Bianchi Rossi giacca giacca 8/2 8/2 400.000 400.000 4 Bianchi camicia sport 9/2 70.000 3 Bianchi giacca 9/2 400.000 2 data warehouse 2

MINE RULE: ESEMPIO CORPO TESTA SUPPORTO CONFIDENZA pantaloni da ski scarponi montagna camicia sport camicia sport scarpe marron scarpe marron giacca giacca camicia sport, scarpe marron scarponi montagna pantaloni da ski scarpe marron giacca camicia sport giacca camicia sport scarpe marron giacca 0.25 0.25 0.25 0.5 0.25 0.25 0.5 0.25 0.25 0.5 0.66 0.33 camicia sport, giacca scarpe marron 0.25 0.5 scarpe marron, giacca camicia sport 0.25 data warehouse 22 PROBLEMA DI CLASSIFICAZIONE CIASCUN ELEMENTO (RECORD) DI UN INSIEME DI DATI E ASSOCIATO, IN BASE A ESPERIENZE O OSSERVAZIONI PREGRESSE, AD UNA CARATTERISTICA DISTINTIVA CHIAMATA CLASSE FASE : APPRENDIMENTO (TRAINING) COSTRUZIONE DI UN MODELLO SULL INSIEME NOTO (TRAINING SET) IN MODO CHE OGNI CLASSE SIA UNA PARTIZIONE DELL INSIEME FASE 2: APPLICAZIONE IL MODELLO INDIVIDUATO VIENE UTILIZZATO PER CLASSIFICARE NUOVI DATI data warehouse 23

PROBLEMA DI CLASSIFICAZIONE: ESEMPIO FASE : APPRENDIMENTO MINE CLASSIFICATION CarInsuranceRules AS SELECT DISTINCT RULES ID, *, CLASS FROM CarInsurance CLASSIFY BY Risk FASE 2: APPLICAZIONE MINE CLASSIFICATION TEST ClassifiedApplicants AS SELECT DISTINCT *, CLASS FROM Applicants USING CLASSIFICATION FROM CarInsuranceRules AS RULES data warehouse 24 PROBLEMA DI CLASSIFICAZIONE: ESEMPIO AGE CAR TYPE RISK 7 sports high 43 family low 68 family low 32 truck low 23 family high 8 family high 20 family high 45 sports high 50 truck low 64 truck high 46 family low 40 family low. IF Age 23 THEN Risk IS High; 2. IF CarType = sports THEN Risk IS High; 3. IF CarType IN {family, truck} AND Age > 23 THEN Risk IS Low; 4. DEFAULT Risk IS Low AGE CAR TYPE 22 family 60 family 35 sports AGE CAR TYPE 22 family 60 family 35 sports MINE CLASSIFICATION TEST CLASS data warehouse 25 high low high

PROBLEMA DI DISCRETIZZAZIONE SI TRATTA DI TRASFORMARE UN ATTRIBUTO NUMERICO IN UNO CATEGORIALE FRAZIONANDO IL DOMINIO NUMERICO IN INTERVALLI CHE, ASSOCIATI CIASCUNO AD UNA ETICHETTA DI CLASSE, COSTITUISCONO IL DOMINIO CATEGORIALE METODI DI DISCRETIZZAZIONE NON SUPERVISIONATI VIENE CONSIDERATA SOLAMENTE LA DISTRIBUZIONE DEI VALORI DELL ATTRIBUTO SUPERVISIONATI SI CERCA DI CONSERVARE QUANTA PIU INFORMAZIONE POSSIBILE RELATIVA ALLE CLASSI DI UN ATTRIBUTO ASSOCIATO ALLE TUPLE data warehouse 26 PROBLEMA DI DISCRETIZZAZIONE DISCRETIZZAZIONE SEMPLICE INTERVALLI DI UGUALE AMPIEZZA IL DOMINIO NUMERICO VIENE SUDDIVISO IN UN ASSEGNATO NUMERO DI INTERVALLI DI UGUALE AMPIEZZA INTERVALLI DI UGUALE FREQUENZA GLI INTERVALLI SONO PIU STRETTI DOVE I VALORI SONO DENSI E PIU AMPI DOVE I VALORI SONO SPARSI MINE INTERVAL IntervalliDiUgualeAmpiezza AS SELECT DISTINCT ID, LOWER, UPPER GENERATING AssicurazioneAutoDiscreta FROM AssicurazioneAuto DISCRETIZE Età BY WIDTH USING 3 INTERVALS data warehouse 27

PROBLEMA DI DISCRETIZZAZIONE: ESEMPIO AGE CAR TYPE RISK 7 sports high 43 family low 68 family low 32 truck low 23 family high 8 family high 20 family high 45 sports high 50 truck low 64 truck high 46 family low 40 family low ID LOWER UPPER 7 34 2 34 52 3 52 68 AGE CAR TYPE RISK sports high --- ----- ---- truck low 2 family low --- ----- ---- 2 truck low 3 ----- ---- 3 family low data warehouse 28