Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati



Documenti analoghi
COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

Data mining e rischi aziendali

Data Warehousing (DW)

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

ISTITUTO COMPRENSIVO BARBERINO MUGELLO

SCENARIO. Personas ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

TECNICHE DI SIMULAZIONE

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

Antonella Martinucci, Rossana Nencini, 2013 IL PESO. classe quarta

Le forme di promozione nei mercati esteri. Michela Floris

LE CARTE DI CONTROLLO (4)

vendite Come organizzare le informazioni Il Customer Relationship Management nelle Istituzioni Finanziarie Europe

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Data mining for e- commerce sites

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Architetture Applicative

ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2

1. BASI DI DATI: GENERALITÀ

Marketing relazionale

Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering


Segmentare ovvero capire il contesto di mercato di riferimento

La Metodologia adottata nel Corso

Corso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A Class Discovery E.

03. Il Modello Gestionale per Processi

IL MANAGER COACH: MODA O REQUISITO DI EFFICACIA. Nelle organizzazioni la gestione e lo sviluppo dei collaboratori hanno una importanza fondamentale.

PDF created with pdffactory trial version Il processo di KDD

AUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT

Il Problem-Based Learning dalla pratica alla teoria

Progettazione : Design Pattern Creazionali

Gruppo di lavoro La comunicazione sociale

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

Business Intelligence CRM

Cap.1 - L impresa come sistema

Social Network. Marco Battini

Progettazione di Basi di Dati

EW1051 Lettore di schede USB

Sistemi informativi secondo prospettive combinate

IL FANTABASKET DEDICATO AL CAMPIONATO DI BASKET A2 FEMMINILE

SysAround S.r.l. L'efficacia delle vendite è l elemento centrale per favorire la crescita complessiva dell azienda.

Come creare una pagina Facebook e collegarla al sito mosajco

Informatica pratica. File e cartelle

Università di Pisa A.A

DEFINIZIONE DEL PRODOTTO O SERVIZIO. a cura di Annamaria Annicchiarico

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Appendice III. Competenza e definizione della competenza

da 2 a 5 giocatori, dai 10 anni in su, durata 30 minuti

Relazione sul data warehouse e sul data mining

STUDI SU MATERIALE GENETICO

PROGETTO EM.MA PRESIDIO

STAMPA UNIONE DI WORD

Organizzazione degli archivi

Cercare informazioni sul Web

Mining Positive and Negative Association Rules:

Il marketing dei servizi. Costruire relazioni con i clienti: il marketing relazionale

SISTEMI INFORMATIVI AZIENDALI

Corso di Sistemi di Elaborazione delle informazioni

Introduzione alla teoria dei database relazionali. Come progettare un database

SQL Server. Applicazioni principali

LE RICERCHE DI MERCATO

Attività federale di marketing

Il CRM per la Gestione del Servizio Clienti

More Riordino Automatico

Lezione V. Aula Multimediale - sabato 29/03/2008

Il Marketing Strategico

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Software per Helpdesk

Che volontari cerchiamo? Daniela Caretto Lecce, aprile

La Progettazione Concettuale

Campaign Management: il caso Vodafone Omnitel.

5. Requisiti del Software II

12. Implementazione di un File System Struttura a livelli Allocazione contigua

Traduzione e adattamento a cura di Gylas per Giochi Rari

Capitolo 13. Interrogare una base di dati

Misurare il ROI della Formazione

INDAGINE SULLA PERCEZIONE DELLA SODDISFAZIONE DEI CLIENTI GECA. Rapporto di sintesi.

info@shift.it

Analisi e diagramma di Pareto

Nuova funzione di ricerca del sito WIKA.

Esercitazione di Basi di Dati

G iochi con le carte 1

Internet i vostri figli vi spiano! La PAROLA-CHIAVE: cacao Stralci di laboratorio multimediale

Cambiamenti nell'assicurazione invalidità

11. Evoluzione del Software

Introduzione alla Progettazione per Componenti

PROCESSO DI INDICIZZAZIONE SEMANTICA

Il Marketing Concetti Introduttivi

LEZIONE N. 1. Il Marketing Concetti Introduttivi. Alessandro De Nisco. Università del Sannio. Corso di Marketing

LA LEGGE DEI GRAFICI THE LAW OF CHARTS DI JOE ROSS

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

L INDUSTRIA E I SERVIZI

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

Transcript:

Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci dati: sono : ad. ad noti es. i fattori transazioni occorre che integrare influenzano delle carte sorgenti di quello credito, informazioni che delle si cerca, compagnie diverse... E l ultimo la velocitàa a cui arrivano: ad es. per le carte di credito possono essere decine d Può Franco di fornire transazioni Scarselli stadio un importante al del secondo,... processo ritorno Sistemi di analisi per economico basi di (si dati usa 2005-2006 a valle degli OLAP) 2 Data Mining

Vendita Scoperta al dettaglio e marketing Predizione abitudini dei clienti Analisi delle associazioni fra le caratteristiche demografiche dei clienti Banche della risposta alle campagne pubblicitarie Uso delle associazioni fra i prodotti acquistati (market basket) Individuare Determinare fedeli,... fraudolento i delle carte di credito Franco Scarselli la clienti quantitàd uso che stanno uso per cambiare carta di credito, i clienti Sistemi della per carte basi di dati di credito 2005-2006per gruppi di clienti 3 Assicurazioni Analisi delle richieste di risarcimento Medicina Predirrequali polize clienti possono essere interessati a nuove tipologie di associato ad una polizza con nuovo cliente Predirre Predirreil Predirrela il rischio migliore di cura una malattia per un determinato associato ad paziente ogni paziente Franco Scarselli Sistemi per basi di dati 2005-2006 4 Applicazioni Applicazioni II

Bioinformatica Predirre Scoprire Predirrela cancerogenitàdi una molecola Applicazioni Predirrel efficacia efficacia una molecola nella cura di una certa malattia gruppi molecole simili per quali ci si aspetta propretàsimili Individuare un servizio web dedicato al cinema (libri, giochi,..), suggerire e agli utenti nuovi argomento film da vedere (libri da acquistare, da provare,...).) cambia un nel web le comunitàche che sono interessate allo stesso Franco forum drasticamente Scarselli di discussione l argomento l individuare Sistemi per basi cui gli di si dati eventi, discute 2005-2006 cioèi i momenti in cui 5 Il Selezione processo di knowledgediscovery discoveryèsuddiviso suddiviso nelle seguenti fasi Ripulitura Si OLAP scelgono dei i dati da analizzare. Essi possono provenire da un OLTP O o da un Data Occorre ripulire dei dati i dati e trasformazione e prepararli per le operazioni successive. e. Spesso le Valutazione tabelle Si sono denormalizzatee e combinate in un unica unica tabella Nella mining abbastanza applicano tecniche di apprendimento automatico, clustering,,... e interpretati. e interpretazione Franco maggior Scarselli affidabili parte dei da casi essere i risultatiprodotti Sistemi usati per direttamente. basi dati dal 2005-2006 data Essi miningnon devono non essere sono valutati 6 Applicazioni III Il processo di knowledge discovery e quello di data mining

Si Esistono tali usano di dati tecniche numerosi tecniche sono provenienti toolper adattate il per data dall intelligenza migliorarne mining,, le ma prestazioni artificiale... su grandi quantità Le ogni per applicazione ha una differente permettono la strada trovare giusta una fra buona un ampio soluzione insieme occorrono tecnologie degli artigiani che selezionino sono tecnologie Franco sapere Scarselli molto qualcosa per costoseda di scoprire il che data nessuno implementare informazione mining che in altri modi non èaccessibile: Sistemi sapuò per basi essere di dati un 2005-2006 vantaggio enorme 7 Analisi individuare Problemi delle associazioni a ad es. classificazione chi le compra regole una nascoste o stampante regressione del tipo:l evento di solito compra A anche implica il toner l evento l B Problemi a partire da un insieme di esempi si apprende a classificare un oggetto Si ad alto es. rischio si vuol o meno: classificare addestra un nuovo un modello utente con di un assicurazione gli esempi dei vecchi come chi utente clienti ad Scoperta di clustering Si ad cerca di organizzare automaticamente gli eventi/oggetti di undatabase ad cerca Franco degli es. es. si vuol identificare le molecole con un proprietàfarmacologiche simili Scarselli di si individuare vuol eventi individuare che gli deviano eventi, le Sistemi frodi dal gli per su comportamento oggetti basi una di carta dati i 2005-2006 comportamenti di credito normale anomali 8 Tecnologie per il data mining Tipologie di applicazioni

Il Data problema supermercato: la registrazione del carrello delle supermercato transazioni di un trovare stati una acquistati transazione contemporaneamente èun insieme da oggetti un utente ad farina, acquistati es. gli farina lievito, oggetti insieme e latte lievito che piùdi oppure frequente sono Franco Scarselli Sistemi per basi di dati 2005-2006 114 113 112 111 TID 201 106 105 201 CID 8/1/05 7/1/05 5/1/05 Datalievito farina Prod. lievito lievito farina carne latteq.t carne latte vino 6 3 6312 à 9 Ricerca Consiste delle nell identificare regole di associazione le regole di Per implicazione Ad es., fra gli eventi ogni regola H Tsi definiscono H T Ad. {farina} {lievito} Franco es. Scarselli Sistemi per basi di dati 2005-2006 114 113 112 111 TID 201 106 105 201 CID 8/1/05 7/1/05 5/1/05 Datalievito farina Prod. lievito lievito farina carne latteq.t carne latte vino10 6 3 6312 à supporto(h T )=supporto(h T) supporto({farina} {lievito})=0.75 confidenza({farina} {lievito})=0.75 Analisi delle associazioni: il problema del carrello Regole di associazione confidenza(h T)= supporto(h T )/ supporto(h )

consiste In cosa consiste la caratteristiche nell inferire una proprietàdi un oggettosulla base di alcune sue Nel (regressione) nostro ad es. si vuol il rischio utente di una polizza Spesso proprietàda o appartteneread inferire può essere un un insieme valore finito numerico (classificazione) qualsiasi La caso POLIZZE(id, all inferenza si crea una tabella che contiene tutte le proprietànecessarie Caratteristiche propritàda Franco Scarselli nome,età,auto_o_furgone,cavalli,attività,...,altorischio) inferire èun attributo della tabella Sistemi per basi di dati 2005-2006 Proprietàda predirre 11 Rappresentano un insieme di regoleche permettono fare la predizione Sono automaticamente Ogni ad costruiti le nodo foglia caratteristiche interno rappresenta automaticamente rappresenta di rischio una decisione dei un usando test e suoi rami indicano le risposte Età vecchi clienti i dati disponibili dell assicurazione Franco Scarselliutilitariaauto <23 no Sportiva, furgone 23 Sistemi sì no per basi di dati 2005-2006 12 Classificazione (regressione) Alberi di decisione

In mira cosa consiste a suddividere un insieme di oggetti in modo che Il nello stesso gruppo siano simile Applicazioni oggetti in gruppi diversi siano dissimili Individuazione supervisionato raggruppamento viene attuato con tecniche di apprendimento non Raggruppamento economichedi molecole Franco Scarselli di utenti in con proprietàcurative simili Sistemi base per alle basi loro loro di dati comportamento caratteristiche 2005-2006 su sociali un sito ed 13 Gli gli esiste algoritmi tipici di clustering l algoritmo oggetti da organizzare sono punti in uno spazio n-dimensionalen ogni cluster una misura deve ha un individuare che centroe definisce e delle un raggio la sfere distanza che fra racchiudano gli oggetti oggetti gli oggetti Franco Scarselli Sistemi clusters per basi di dati 2005-2006 14 Clustering Clustering II

Strumenti alcuni produttori costruiti appositamente costruiscono strumenti ad hoc per il data mining,, capaci Strumenti di prendere dati da sorgenti diverse i i ad. MegaputerPolyAnalyst es. SAS PolyAnalyst, EnterpriseMiner, Miner, ANGOSS, SPSS KnowledgeStudio Clementine, CART (Salfort( SalfortSystems), IBM maggiori associati produttori ai DBMS di DBMS offrono anche strumenti per il data mining Microsoft classificazione, Franco IntelligentMiner Supporta numerosi Scarselli gli AnalysisService alberi la regressione di algoritmi decisione, per e il la ricerca di regole di associazione, ione, la Sistemi il per clustering. basi di dati 2005-2006 15 Strumenti per il data mining