DATA MINING E CLUSTERING



Похожие документы
Introduzione al Machine Learning

PROCEDURA INFORMATIZZATA PER LA COMPENSAZIONE DELLE RETI DI LIVELLAZIONE. (Metodo delle Osservazioni Indirette) - 1 -

Metodi e Modelli per l Ottimizzazione Combinatoria Progetto: Metodo di soluzione basato su generazione di colonne

* * * Nota inerente il calcolo della concentrazione rappresentativa della sorgente. Aprile 2006 RL/SUO-TEC 166/2006 1

Relazioni tra variabili: Correlazione e regressione lineare

Macchine. 5 Esercitazione 5

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI CONFRONTO DI PIU MEDIE IL METODO DI ANALISI DELLA VARIANZA

La verifica delle ipotesi

Ministero della Salute D.G. della programmazione sanitaria --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA

Ricerca Operativa e Logistica Dott. F.Carrabs e Dott.ssa M.Gentili. Modelli per la Logistica: Single Flow One Level Model Multi Flow Two Level Model

Soluzione esercizio Mountbatten

LA COMPATIBILITA tra due misure:

Il modello markoviano per la rappresentazione del Sistema Bonus Malus. Prof. Cerchiara Rocco Roberto. Materiale e Riferimenti

Variabili statistiche - Sommario

MACROECONOMIA A.A. 2014/2015

Lezione 10. L equilibrio del mercato finanziario: la struttura dei tassi d interesse

TITOLO: L INCERTEZZA DI TARATURA DELLE MACCHINE PROVA MATERIALI (MPM)

CAPITOLO IV CENNI SULLE MACCHINE SEQUENZIALI

RETI TELEMATICHE Lucidi delle Lezioni Capitolo VII

Principi di ingegneria elettrica. Lezione 6 a. Analisi delle reti resistive

LA STATISTICA: OBIETTIVI; RACCOLTA DATI; LE FREQUENZE (EXCEL) ASSOLUTE E RELATIVE

Corso di Statistica (canale P-Z) A.A. 2009/10 Prof.ssa P. Vicard

Hansard OnLine. Unit Fund Centre Guida

La retroazione negli amplificatori

STATISTICA DESCRITTIVA - SCHEDA N. 5 REGRESSIONE LINEARE

Norma UNI CEI ENV 13005: Guida all'espressione dell'incertezza di misura

Newsletter "Lean Production" Autore: Dott. Silvio Marzo

Strutture deformabili torsionalmente: analisi in FaTA-E

Trigger di Schmitt. e +V t

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Università degli Studi di Urbino Facoltà di Economia

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE *

3. Esercitazioni di Teoria delle code

Il patrimonio informativo aziendale come supporto alle attività di marketing

CIRCOLARE N. 9. CIRCOLARI DELL ENTE MODIFICATE/SOSTITUITE: nessuna. Firmato: ing. Carlo Cannafoglia

STATISTICA DESCRITTIVA CON EXCEL

A. AUMENTO DELLA SPESA PUBBLICA FINANZIATO ESCLUSIVAMENTE TRAMITE INDEBITAMENTO

Economie di scala, concorrenza imperfetta e commercio internazionale

Regressione Multipla e Regressione Logistica: concetti introduttivi ed esempi

MODELLISTICA DI SISTEMI DINAMICI

PARENTELA e CONSANGUINEITÀ di Dario Ravarro

Capitolo 3 Covarianza, correlazione, bestfit lineari e non lineari

Condensatori e resistenze

Calibrazione. Lo strumento idealizzato

Soluzioni per lo scarico dati da tachigrafo innovativi e facili da usare.

LEZIONE 2 e 3. La teoria della selezione di portafoglio di Markowitz

Leggere i dati da file

Esame di Statistica Corso di Laurea in Economia

Esercitazioni del corso di Relazioni tra variabili. Giancarlo Manzi Facoltà di Sociologia Università degli Studi di Milano-Bicocca

Studio grafico-analitico di una funzioni reale in una variabile reale

VA TIR - TA - TAEG Introduzione

Indicatori di rendimento per i titoli obbligazionari

McGraw-Hill. Tutti i diritti riservati. Caso 11

La taratura degli strumenti di misura

Calcolo della caduta di tensione con il metodo vettoriale

CAPITOLO 3 Incertezza di misura Pagina 26

Prova di verifica n.0 Elettronica I (26/2/2015)

Corso di. Dott.ssa Donatella Cocca

Analisi di mercurio in matrici solide mediante spettrometria di assorbimento atomico a vapori freddi

Scelta dell Ubicazione. di un Impianto Industriale. Corso di Progettazione Impianti Industriali Prof. Sergio Cavalieri

FORMAZIONE ALPHAITALIA

Ottimizzazione nella gestione dei progetti Capitolo 6 Project Scheduling con vincoli sulle risorse CARLO MANNINO

Транскрипт:

Captolo 4 DATA MINING E CLUSTERING 4. Che cos'è l Data Mnng Per Data Mnng s'ntende quel processo d estrazone d conoscenza da banche dat, tramte l'applcazone d algortm che ndvduano le assocazon non mmedatamente rconoscbl tra le nformazon e le rendono vsbl. In altre parole, col nome data mnng ntendamo l'applcazone d una o pù tecnche che consente l'esplorazone d grand quanttà d dat, con l'obettvo d ndvduare le nformazon pù sgnfcatve e d renderle dsponbl e drettamente utlzzabl nell'ambto del decson makng. L'estrazone d conoscenza, ossa d nformazon sgnfcatve, avvene tramte ndvduazone delle assocazon, patterns, o sequenze rpetute, nascoste ne dat. In questo contesto un pattern ndca una struttura, un modello, o, n generale, una rappresentazone sntetca de dat. Il termne data mnng è utlzzato come snonmo d knowledge dscovery n databases (KDD), anche se sarebbe pù precso parlare d knowledge dscovery quando c s rfersce al processo d estrazone della conoscenza, e d data mnng come d una partcolare fase del suddetto processo. 4.2 Perché usare strument d Data Mnng Gl algortm d data mnng, sono stat svluppat per far fronte all esgenza d sfruttare l patrmono nformatvo contenuto nelle grand raccolte d dat che abbamo a dsposzone. Acqusre nformazon non è, nfatt, pù un problema se s 52

pensa alla rcchezza delle sorgent d dat accessbl su Web o attraverso Data Warehouse azendal, l problema è cercare d utlzzarl, estrarne le nformazon. Spesso dat, sa che s rferscano all attvtà gornalera dell azenda o dell ente, sa che s rferscano alla clentela o all utenza, sa che s rferscano al mercato o alla concorrenza, s presentano n forma eterogenea, rdondante, non strutturata. Tutto cò fa sì che solo una pccola parte sa analzzata. D altra parte la rapda evoluzone del mercato rchede rapdtà d adattamento. In questo contesto ruscre a sfruttare la potenzale rcchezza d nformazon che abbamo a dsposzone costtusce un enorme vantaggo. Per fare cò è necessaro dsporre d strument potent e flessbl. La gran quanttà d dat e la loro natura eterogenea rende, nfatt, nadeguat gl strument tradzonal. Quest s dvdono n due tp: strument d anals statstca e strument tpc d nterrogazone d banche dat dette data retreval. Per quanto rguarda prm, le dffcoltà nascono dal fatto che dffclmente operano su grand quanttà d dat n quanto rchedono operazon d camponamento con conseguente perdta d nformazon. Fg.. 53

Fg. 2. Il data retreval è, nfatt, uno strumento per nterrogare banche dat che consste nel formulare una query, o nterrogazone. Il sstema cerca, all nterno della banca dat, tutt cas che soddsfano le condzon poste nella query vale a dre tutt dat che presentano le caratterstche rcheste, fornendo successvamente la rsposta. L'ndvduazone d assocazon nascoste può qund solo procedere per tentatv. Mentre l'uso d strument d data retreval consente d avere rsposte precse a qualsas domanda specfca, l data mnng rsponde a domande pù generche. Questo secondo approcco consente d far emergere da dat le assocazon esstent senza rchedere la formulazone d potes a pror. Sarà l'algortmo a mettere n evdenza le fasce d'età, l'nseme d prodott acqustat, e le altre caratterstche, che s presentano rpetutamente ne dat. S tratta qund d un approcco esploratvo e non, come nel data retreval, verfcatvo. In questo modo possamo scoprre relazon che non solo erano nascoste e sconoscute, ma che non avremmo nemmeno ma potzzato potessero esstere. Questo approcco è utle anche nell'anals d test. Il secondo esempo fa rfermento a una banca dat d document testual come le agenze d stampa. La rcerca n base ad una parola specfca non sempre porta ad ndvduare document 54

relatv all argomento che c nteressa, gl strument d data mnng, nfatt, consentono d raggruppare document per argomento sulla base d tutte le parole contenute ne document stess, tramte l'ndvduazone d assocazon tra le parole generalmente test strutturat. Gl strument d data mnng nascono dall ntegrazone d var camp d rcerca come la statstca, la pattern recognton, o la machne learnng, e sono stat svluppat ndpendentemente da database, al fne d operare su dat grezz. Fg. 3. 55

4.3 Tecnche ed ambt applcatv Le tecnche utlzzabl sono vare e, d conseguenza, anche gl algortm che le mplementano. La scelta dpende prncpalmente dall'obettvo che s vuole raggungere e dal tpo d dat da analzzare. Le tecnche pù utlzzate sono: Clusterng Ret Neural Alber d Decsone Indvduazone d Assocazon Le tecnche d clusterng e l'uso delle ret neural non supervsonate consentono d effettuare operazon d segmentazone su dat, coè d ndvduare grupp omogene, o tpologe, che presentano delle regolartà al loro nterno n grado d caratterzzarl e dfferenzarl dagl altr grupp. Le ret neural e gl alber d decsone consentono d effettuare operazon d classfcazone, fanno coè uso della conoscenza acqusta n fase d addestramento per classfcare nuov oggett o prevedere nuov event. Le tecnche d anals delle assocazon consentono d ndvduare delle regole nelle occorrenze concomtant d due o pù event. A queste s aggungono le sequental patterns ossa tecnche d ndvduazone d sequenze temporal e algortm genetc. Queste tecnche sono applcabl a qualsas ambto d ndagne, n generale trovano applcazone tutte le volte che samo d fronte a grand quanttà d dat e abbamo l'esgenza d conoscerne l contenuto. 56

Fg. 4. 4.4 Il processo d estrazone d conoscenza Indpendentemente dal tpo d applcazone specfca, un processo d estrazone d conoscenza percorre alcune fas che possono essere schematzzate n: Defnzone dell obettvo Indvduazone delle font d dat Estrazone ed acquszone de dat Pre-processng Data mnng Interpretazone e valutazone de rsultat Rappresentazone de rsultat 57

Lo schema seguente mette n luce la natura teratva del processo. La fase d valutazone può, nfatt, portare da una semplce rdefnzone de parametr d anals utlzzat, ad una rdefnzone dell ntero processo a partre da dat estratt. Fg. 5. Mentre l ndvduazone d patterns avvene automatcamente, l ntero processo d estrazone della conoscenza è dffclmente automatzzable e rchede l convolgmento d vare professonaltà come espert del domno applcatvo, specalst n anals dat, nformatc. 58

4.5 L'anals de cluster Nella nostra tes la metodologa d data mnng è stata utlzzata adottando la tecnca d cluster analyss per la classfcazone de pazent. L'anals de cluster, cluster analyss, a volte tradotta come anals de grappol è una tecnca nata negl ann 60 e 70, mrata all'ndvduazone d agglomerat d dat all'nterno d una popolazone nota. Gl obettv fnal possono essere pù dsparat, come l'ndvduazone o la convalda d un'potes d rcerca a partre da dat, l'solamento d pattern caratterstc n determnate sotto-popolazon, o la classfcazone de dat. In questa sezone saranno espost prncpal strument dell'anals de cluster con quest'ultmo scopo n mente. Fg. 6. 59

Fg. 7. L'anals de cluster s basa su procedure semplc e faclmente automatzzabl, fa uso d tecnche eurstche e pogga su una matematca puttosto elementare. D'altra parte, propro la sua semplctà ne ha favorto la dffusone tra rcercator delle scenze natural, e la leggbltà de suo rsultat, l'alto potenzale eurstco e la dsponbltà d numeros strument d anals automatca ne fanno uno strumento valdo e mertevole d consderazone. Nell'ambto d un'anals dscrmnante, o d una procedura d classfcazone automatca n generale, può aver senso cheders se alcune varabl, s supponga n un numero q, non sano rdondant, coè se non aggungano alcun'nformazone utle alla classfcazone rspetto all'nseme delle rmanent p-q. La rsposta a questa domanda s rvela d notevole nteresse se alcune varabl sono partcolarmente costose o dffcl da ottenere. Paradossalmente, l'elmnazone d varabl che sngolarmente presentano un basso ndce d separazone può rvelars una pessma dea. Vceversa, è possble che 60

una varable con un alto contenuto nformatvo a fn della classfcazone sa superflua se utlzzata con altre varabl. Come ne metod statstc, è utle ora nvece analzzare le prncpal procedure d trasformazone e d normalzzazone delle varabl. 4.6 Trasformazone e normalzzazone delle varabl Nell'anals de cluster è fortemente consglato l'utlzzo della trasformazone nonché della normalzzazone, poché rende l rsultato ndpendente dalle untà d msura adottate per le varabl stesse. Inoltre, la normalzzazone fa s che tutte le varabl contrbuscano n ugual msura alla classfcazone. Per trasformazone d una varable, o attrbuto, s ntende la dervazone d nuove varabl attraverso l'applcazone d funzon a quelle orgnare. In formula: Y def f ( Y ) p In alcun cas può essere utle applcare ad alcune varabl delle trasformazon non lnear, al fne d correggerne la dstorsone. Tra le trasformazon lnear, la pù usata è senz'altro la seguente: Y Y E [ Y Var [ Y ] ] p spesso denomnata normalzzazone. Naturalmente, nella pratca s utlzzano le stme camponare d queste quanttà. S verfca faclmente che, le varabl così trasformate, hanno meda camponara nulla e varanza camponara untara. S not nfne che le nuove varabl sono admensonal. Esstono forme alternatve d 6

normalzzazone. Ad esempo, nel caso n cu valor delle varabl sano non negatve, s può far uso della formula: Y Y max e d p dove s è ndcato con e l'-esmo versore, e qund l prodotto scalare, mentre d rappresenta la componente -esma dell'osservazone -esma (s rcord che d è stato defnto come un vettore colonna). In sostanza, s dvdono dat rlevat d cascuna varable per l valore massmo, n modo che tutt valor delle nuove varabl sano comprese nell'ntervallo untaro. Anche quest'ultmo sa l pù pccolo ntervallo contenente tutt nuov valor, s può rcorrere alla seguente formula: Y max Y e d mn e mn d e d p Ne paragraf a segure s assumerà d lavorare con una matrce d varabl normalzzate. Ora nzamo a trattare le prncpal tecnche d anals de cluster che s suddvdono n due ampe categore: metod d rpartzone e metod gerarchc. Preme sottolneare che l nostro studo verte prncpalmente sull'utlzzo d procedure d tpo gerarchco, ampamente descrtte n questo captolo, rcordando nvece che pur fornendo una descrzone dettaglata de metod d rpartzone, ess non saranno tecncamente sfruttat nel nostro lavoro. 62

4.7 Metod d rpartzone L'obettvo d questa classe d algortm è la rpartzone de dat dsponbl n n sottonsem o cluster C,.,Cn qund tal per cu: C C... C k C 0 d = k n modo che gl element d ogn sottonseme sano l pù compatt possble. E' l'nterpretazone e la formalzzazone d questa propretà alquanto sfumata che caratterzza sngol algortm. Alcun d loro procedono eurstcamente, mentre altr cercano d ottmzzare una determnata funzone obettvo. Prncpale esponente della categora de metod d rpartzone è l'algortmo K- means, d gran lunga l pù noto ed utlzzato. Esso utlzza come funzone obettvo da mnmzzare la somma de quadrat delle dstanze tra punt e la meda camponara del cluster cu appartengono. In formula: S w def n N d m ' d m Prma d presentare l'algortmo s fa notare che l numero d confgurazon possbl degl n cluster sugl N dat s dmostra essere par a n n! n n 63

che esplode faclmente per valor non banal de due parametr. Aggungamo qund che una rcerca esaustva della confgurazone ottma è qund mproponble. Sa x l vettore d lunghezza N che conserva codc assocat a cluster d appartenenza d cascun dato. Il metodo K-means, partendo da un assegnamento nzale x 0 e scandendo dat uno ad uno, ad ogn passo calcola le mede e la funzone obettvo, e assegna l'osservazone n esame al cluster per cu la nuova valutazone della funzone obettvo è mnma. Il procedmento s arresta allorquando x rmane nvarato per N ccl consecutv. Questo algortmo è ottmo ad ogn passo, ma non trova necessaramente la soluzone ottma cercata. E' consglable pertanto rpetere la procedura con dverse confgurazon nzal. S tenga n consderazone, comunque, che la funzone obettvo soffre d alcune lmtazon, e fornsce rsultat scadent per cluster non suffcentemente compatt e separat, o avent cardnaltà molto dverse tra loro. 4.8 Metod gerarchc Nella nostra tes c samo avvals nvece d algortm prettamente gerarchc, che pù d altr hanno rscosso successo all'nterno delle comuntà scentfche d fsc, naturalst e socolog, tanto che alcune pubblcazon s rferscono con l termne cluster analyss alla sola anals gerarchca de cluster. L'obettvo d quest algortm è l'organzzazone de dat n una struttura gerarchca, che raggruppa osservazon molto sml n pccol cluster a lvell pù bass, e osservazon pù bascamente collegate n cluster pù grand e generc a lvell pù alt, fno ad arrvare all'nseme d tutt dat. Formalmente, s ottene una sequenza d h partzon d cardnaltà strettamente crescente degl N dat. Sa n h la cardnaltà della -esma partzone. Sarà allora: n... n h N 64

In altre parole, la prma partzone della sequenza è rappresentata da un solo nseme C ={d < < N} comprendente tutte le osservazon; la seconda partzone prevede n 2 > 2 sottonsem dsgunt e complementar d C, e così va, fno all'ultma partzone, che s not non prevede necessaramente la frammentazone de dat n N sngolett o cluster degener. I metod d anals gerarchca s dstnguono n due mportant categore: le dvsve o d suddvsone, nonché le procedure da no utlzzate, ossa le agglomeratve o assocatve. Nelle prme nuov cluster sono ottenut per suddvsone d cluster appartenent al lvello precedente. In partenza c'è un unco cluster con tutt gl ndvdu, alla fne c sono tant cluster quant sono gl ndvdu. Le dvsve costruscono un dagramma ad albero, dendrogramma, che dà un'mmagne delle relazon fra gl oggett. Fg. 8. Il dendrogramma s costtusce partendo da ram, oggett a snstra {a, b, c, d, e}, sno ad arrvare, per fuson successve, ad un unco ramo fnale, radce. Le fuson sono rappresentate da punt n cu due ram s congungono. Infne approfondamo le procedure mpegate nel nostro lavoro, le agglomeratve o assocatve, dove un nuovo cluster è l rsultato della fusone d due cluster del lvello precedente. In partenza c sono tant cluster quant sono gl ndvdu; alla fne v sarà un unco cluster o radce composto da tutt gl ndvdu. Rcordamo comunque che ndfferentemente dal tpo d categora utlzzata, ogn procedura d cluster analyss gerarchca procede attraverso seguent passagg: 65

Identfcazone delle varabl da utlzzare per la classfcazone Selezone d una msura d dstanza tra untà Selezone d una tecnca d raggruppamento delle untà Identfcazone del numero d grupp entro qual rpartre le untà Valutazone ed nterpretazone della soluzone 4.9 Crter d fusone ne metod gerarchc Sa le procedure dvsve che le agglomeratve de metod gerarchc s avvalgono d dverse tecnche d fusone degl oggett. La prma tra quelle che analzzeremo è l'average group lnkage o legame medo entro grupp, metodo da no sfruttato per la classfcazone de nostr pazent. Con questo tecnca ogn gruppo formato è rappresentato dal valore medo d ogn varable, così, l loro vettore medo e la dstanza nter-gruppo vene defnta come la dstanza tra due vettor med. Consderando due potetc clusters r e s, s attua un'unone de medesm n modo che la dstanza meda sa mnma. La dstanza tra due clusters D (r,s) vene qund defnta come : D (r,s) = Meda { d (,) : dove e sono nel cluster t, cluster formato dall'unone d r e s } In ogn fase del procedmento clusters r e s, n cu D (r,s) è mnma, vengono congunt ma, n questo caso, due cluster unt, hanno medamente la mnma dstanza tra loro punt. 66

Fg. 9. In questa fnestra dervante dal pacchetto Xlmner s evdenza la tecnca d lavoro da no seguta per l'operazone d clusterng su nostr pazent. S procede opzonando la normalzzazone de dat, dopo la scelta del metodo eucldeo per l calcolo della dstanza, vene scelto l'average group lnkage come metodo d clusterng gerarchco da mpegare. Fg. 0. In questa fnestra nvece vene ndcato l numero d clusters che voglamo mpegare nella classfcazone de nostr pazent (2 o 3 class). 67

Ne metod gerarchc sa d tpo dvsvo che agglomeratvo sono compres anche altr crter d fusone d cu fornremo solo una descrzone sommara n quanto non utlzzat nel nostro studo. Infatt un secondo metodo fornto dal clusterng gerarchco nonché da Xlmner è l Sngle lnkage o legame sngolo l quale tende a concatenare gl oggett n una sorta d "serpentna" costruendo cluster contgu e poco separat. Il metodo del Complete lnkage o legame completo nvece tende a costrure raggruppament pù separat e defnt. Entrando sempre pù nel dettaglo possamo dstnguere che tramte l metodo dell'average lnkage o legame medo la dstanza tra due cluster è uguale alla meda artmetca delle dstanze defnte su tutte le coppe d oggett ne due cluster. S termna con l Ward's method o metodo d Ward basato sulla mnmzzazone della devanza entro grupp che è uguale a quando tutt cas sono separat, ed è massma quando ess appartengono tutt a un gruppo unco. 4.0 Tecnche gerarchche e non gerarchche Contrappost a metod gerarchc esstono anche metod non gerarchc che non sono stat utlzzat nella nostra tes. Quest'ultm rsentono meno della presenza d error d msura e d altre font d varanza spura ruscendo n tal modo ad ndvduare meglo grupp coes. Spccano alcune sostanzal dfferenze tra le due tecnche d clusterng: nnanztutto una maggore rgdtà dovuta ad eventual aggregazon mpropre a prm lvell dell'aggregazone vene evdenzata ne metod gerarchc, aggungamo noltre che se un ndvduo vene assegnato ad un gruppo n un determnato stado, v rmarrà n tutt gl stad successv, contraramente a metod non gerarchc dove l'assegnazone può cambare fnché l processo d classfcazone non gunge a convergenza. 68

Il lmte prncpale de metod non gerarchc sta nel dover avere n antcpo un'dea del numero d grupp present;un ulterore lmte sta nel fatto che quest metod possono essere utlzzat solo con varabl msurate per lo meno al lvello degl ntervall, e solo con funzon d dstanza eucldee. 69

Ths document was created wth Wn2PDF avalable at http://www.daneprare.com. The unregstered verson of Wn2PDF s for evaluaton or non-commercal use only.