Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci dati: sono : ad. ad noti es. i fattori transazioni occorre che integrare influenzano delle carte sorgenti di quello credito, informazioni che delle si cerca, compagnie diverse... E l ultimo la velocitàa a cui arrivano: ad es. per le carte di credito possono essere decine d Può Franco di fornire transazioni Scarselli stadio un importante al del secondo,... processo ritorno Sistemi di analisi per economico basi di (si dati usa 2005-2006 a valle degli OLAP) 2 Data Mining
Vendita Scoperta al dettaglio e marketing Predizione abitudini dei clienti Analisi delle associazioni fra le caratteristiche demografiche dei clienti Banche della risposta alle campagne pubblicitarie Uso delle associazioni fra i prodotti acquistati (market basket) Individuare Determinare fedeli,... fraudolento i delle carte di credito Franco Scarselli la clienti quantitàd uso che stanno uso per cambiare carta di credito, i clienti Sistemi della per carte basi di dati di credito 2005-2006per gruppi di clienti 3 Assicurazioni Analisi delle richieste di risarcimento Medicina Predirrequali polize clienti possono essere interessati a nuove tipologie di associato ad una polizza con nuovo cliente Predirre Predirreil Predirrela il rischio migliore di cura una malattia per un determinato associato ad paziente ogni paziente Franco Scarselli Sistemi per basi di dati 2005-2006 4 Applicazioni Applicazioni II
Bioinformatica Predirre Scoprire Predirrela cancerogenitàdi una molecola Applicazioni Predirrel efficacia efficacia una molecola nella cura di una certa malattia gruppi molecole simili per quali ci si aspetta propretàsimili Individuare un servizio web dedicato al cinema (libri, giochi,..), suggerire e agli utenti nuovi argomento film da vedere (libri da acquistare, da provare,...).) cambia un nel web le comunitàche che sono interessate allo stesso Franco forum drasticamente Scarselli di discussione l argomento l individuare Sistemi per basi cui gli di si dati eventi, discute 2005-2006 cioèi i momenti in cui 5 Il Selezione processo di knowledgediscovery discoveryèsuddiviso suddiviso nelle seguenti fasi Ripulitura Si OLAP scelgono dei i dati da analizzare. Essi possono provenire da un OLTP O o da un Data Occorre ripulire dei dati i dati e trasformazione e prepararli per le operazioni successive. e. Spesso le Valutazione tabelle Si sono denormalizzatee e combinate in un unica unica tabella Nella mining abbastanza applicano tecniche di apprendimento automatico, clustering,,... e interpretati. e interpretazione Franco maggior Scarselli affidabili parte dei da casi essere i risultatiprodotti Sistemi usati per direttamente. basi dati dal 2005-2006 data Essi miningnon devono non essere sono valutati 6 Applicazioni III Il processo di knowledge discovery e quello di data mining
Si Esistono tali usano di dati tecniche numerosi tecniche sono provenienti toolper adattate il per data dall intelligenza migliorarne mining,, le ma prestazioni artificiale... su grandi quantità Le ogni per applicazione ha una differente permettono la strada trovare giusta una fra buona un ampio soluzione insieme occorrono tecnologie degli artigiani che selezionino sono tecnologie Franco sapere Scarselli molto qualcosa per costoseda di scoprire il che data nessuno implementare informazione mining che in altri modi non èaccessibile: Sistemi sapuò per basi essere di dati un 2005-2006 vantaggio enorme 7 Analisi individuare Problemi delle associazioni a ad es. classificazione chi le compra regole una nascoste o stampante regressione del tipo:l evento di solito compra A anche implica il toner l evento l B Problemi a partire da un insieme di esempi si apprende a classificare un oggetto Si ad alto es. rischio si vuol o meno: classificare addestra un nuovo un modello utente con di un assicurazione gli esempi dei vecchi come chi utente clienti ad Scoperta di clustering Si ad cerca di organizzare automaticamente gli eventi/oggetti di undatabase ad cerca Franco degli es. es. si vuol identificare le molecole con un proprietàfarmacologiche simili Scarselli di si individuare vuol eventi individuare che gli deviano eventi, le Sistemi frodi dal gli per su comportamento oggetti basi una di carta dati i 2005-2006 comportamenti di credito normale anomali 8 Tecnologie per il data mining Tipologie di applicazioni
Il Data problema supermercato: la registrazione del carrello delle supermercato transazioni di un trovare stati una acquistati transazione contemporaneamente èun insieme da oggetti un utente ad farina, acquistati es. gli farina lievito, oggetti insieme e latte lievito che piùdi oppure frequente sono Franco Scarselli Sistemi per basi di dati 2005-2006 114 113 112 111 TID 201 106 105 201 CID 8/1/05 7/1/05 5/1/05 Datalievito farina Prod. lievito lievito farina carne latteq.t carne latte vino 6 3 6312 à 9 Ricerca Consiste delle nell identificare regole di associazione le regole di Per implicazione Ad es., fra gli eventi ogni regola H Tsi definiscono H T Ad. {farina} {lievito} Franco es. Scarselli Sistemi per basi di dati 2005-2006 114 113 112 111 TID 201 106 105 201 CID 8/1/05 7/1/05 5/1/05 Datalievito farina Prod. lievito lievito farina carne latteq.t carne latte vino10 6 3 6312 à supporto(h T )=supporto(h T) supporto({farina} {lievito})=0.75 confidenza({farina} {lievito})=0.75 Analisi delle associazioni: il problema del carrello Regole di associazione confidenza(h T)= supporto(h T )/ supporto(h )
consiste In cosa consiste la caratteristiche nell inferire una proprietàdi un oggettosulla base di alcune sue Nel (regressione) nostro ad es. si vuol il rischio utente di una polizza Spesso proprietàda o appartteneread inferire può essere un un insieme valore finito numerico (classificazione) qualsiasi La caso POLIZZE(id, all inferenza si crea una tabella che contiene tutte le proprietànecessarie Caratteristiche propritàda Franco Scarselli nome,età,auto_o_furgone,cavalli,attività,...,altorischio) inferire èun attributo della tabella Sistemi per basi di dati 2005-2006 Proprietàda predirre 11 Rappresentano un insieme di regoleche permettono fare la predizione Sono automaticamente Ogni ad costruiti le nodo foglia caratteristiche interno rappresenta automaticamente rappresenta di rischio una decisione dei un usando test e suoi rami indicano le risposte Età vecchi clienti i dati disponibili dell assicurazione Franco Scarselliutilitariaauto <23 no Sportiva, furgone 23 Sistemi sì no per basi di dati 2005-2006 12 Classificazione (regressione) Alberi di decisione
In mira cosa consiste a suddividere un insieme di oggetti in modo che Il nello stesso gruppo siano simile Applicazioni oggetti in gruppi diversi siano dissimili Individuazione supervisionato raggruppamento viene attuato con tecniche di apprendimento non Raggruppamento economichedi molecole Franco Scarselli di utenti in con proprietàcurative simili Sistemi base per alle basi loro loro di dati comportamento caratteristiche 2005-2006 su sociali un sito ed 13 Gli gli esiste algoritmi tipici di clustering l algoritmo oggetti da organizzare sono punti in uno spazio n-dimensionalen ogni cluster una misura deve ha un individuare che centroe definisce e delle un raggio la sfere distanza che fra racchiudano gli oggetti oggetti gli oggetti Franco Scarselli Sistemi clusters per basi di dati 2005-2006 14 Clustering Clustering II
Strumenti alcuni produttori costruiti appositamente costruiscono strumenti ad hoc per il data mining,, capaci Strumenti di prendere dati da sorgenti diverse i i ad. MegaputerPolyAnalyst es. SAS PolyAnalyst, EnterpriseMiner, Miner, ANGOSS, SPSS KnowledgeStudio Clementine, CART (Salfort( SalfortSystems), IBM maggiori associati produttori ai DBMS di DBMS offrono anche strumenti per il data mining Microsoft classificazione, Franco IntelligentMiner Supporta numerosi Scarselli gli AnalysisService alberi la regressione di algoritmi decisione, per e il la ricerca di regole di associazione, ione, la Sistemi il per clustering. basi di dati 2005-2006 15 Strumenti per il data mining