Captolo 4 DATA MINING E CLUSTERING 4. Che cos'è l Data Mnng Per Data Mnng s'ntende quel processo d estrazone d conoscenza da banche dat, tramte l'applcazone d algortm che ndvduano le assocazon non mmedatamente rconoscbl tra le nformazon e le rendono vsbl. In altre parole, col nome data mnng ntendamo l'applcazone d una o pù tecnche che consente l'esplorazone d grand quanttà d dat, con l'obettvo d ndvduare le nformazon pù sgnfcatve e d renderle dsponbl e drettamente utlzzabl nell'ambto del decson makng. L'estrazone d conoscenza, ossa d nformazon sgnfcatve, avvene tramte ndvduazone delle assocazon, patterns, o sequenze rpetute, nascoste ne dat. In questo contesto un pattern ndca una struttura, un modello, o, n generale, una rappresentazone sntetca de dat. Il termne data mnng è utlzzato come snonmo d knowledge dscovery n databases (KDD), anche se sarebbe pù precso parlare d knowledge dscovery quando c s rfersce al processo d estrazone della conoscenza, e d data mnng come d una partcolare fase del suddetto processo. 4.2 Perché usare strument d Data Mnng Gl algortm d data mnng, sono stat svluppat per far fronte all esgenza d sfruttare l patrmono nformatvo contenuto nelle grand raccolte d dat che abbamo a dsposzone. Acqusre nformazon non è, nfatt, pù un problema se s 52
pensa alla rcchezza delle sorgent d dat accessbl su Web o attraverso Data Warehouse azendal, l problema è cercare d utlzzarl, estrarne le nformazon. Spesso dat, sa che s rferscano all attvtà gornalera dell azenda o dell ente, sa che s rferscano alla clentela o all utenza, sa che s rferscano al mercato o alla concorrenza, s presentano n forma eterogenea, rdondante, non strutturata. Tutto cò fa sì che solo una pccola parte sa analzzata. D altra parte la rapda evoluzone del mercato rchede rapdtà d adattamento. In questo contesto ruscre a sfruttare la potenzale rcchezza d nformazon che abbamo a dsposzone costtusce un enorme vantaggo. Per fare cò è necessaro dsporre d strument potent e flessbl. La gran quanttà d dat e la loro natura eterogenea rende, nfatt, nadeguat gl strument tradzonal. Quest s dvdono n due tp: strument d anals statstca e strument tpc d nterrogazone d banche dat dette data retreval. Per quanto rguarda prm, le dffcoltà nascono dal fatto che dffclmente operano su grand quanttà d dat n quanto rchedono operazon d camponamento con conseguente perdta d nformazon. Fg.. 53
Fg. 2. Il data retreval è, nfatt, uno strumento per nterrogare banche dat che consste nel formulare una query, o nterrogazone. Il sstema cerca, all nterno della banca dat, tutt cas che soddsfano le condzon poste nella query vale a dre tutt dat che presentano le caratterstche rcheste, fornendo successvamente la rsposta. L'ndvduazone d assocazon nascoste può qund solo procedere per tentatv. Mentre l'uso d strument d data retreval consente d avere rsposte precse a qualsas domanda specfca, l data mnng rsponde a domande pù generche. Questo secondo approcco consente d far emergere da dat le assocazon esstent senza rchedere la formulazone d potes a pror. Sarà l'algortmo a mettere n evdenza le fasce d'età, l'nseme d prodott acqustat, e le altre caratterstche, che s presentano rpetutamente ne dat. S tratta qund d un approcco esploratvo e non, come nel data retreval, verfcatvo. In questo modo possamo scoprre relazon che non solo erano nascoste e sconoscute, ma che non avremmo nemmeno ma potzzato potessero esstere. Questo approcco è utle anche nell'anals d test. Il secondo esempo fa rfermento a una banca dat d document testual come le agenze d stampa. La rcerca n base ad una parola specfca non sempre porta ad ndvduare document 54
relatv all argomento che c nteressa, gl strument d data mnng, nfatt, consentono d raggruppare document per argomento sulla base d tutte le parole contenute ne document stess, tramte l'ndvduazone d assocazon tra le parole generalmente test strutturat. Gl strument d data mnng nascono dall ntegrazone d var camp d rcerca come la statstca, la pattern recognton, o la machne learnng, e sono stat svluppat ndpendentemente da database, al fne d operare su dat grezz. Fg. 3. 55
4.3 Tecnche ed ambt applcatv Le tecnche utlzzabl sono vare e, d conseguenza, anche gl algortm che le mplementano. La scelta dpende prncpalmente dall'obettvo che s vuole raggungere e dal tpo d dat da analzzare. Le tecnche pù utlzzate sono: Clusterng Ret Neural Alber d Decsone Indvduazone d Assocazon Le tecnche d clusterng e l'uso delle ret neural non supervsonate consentono d effettuare operazon d segmentazone su dat, coè d ndvduare grupp omogene, o tpologe, che presentano delle regolartà al loro nterno n grado d caratterzzarl e dfferenzarl dagl altr grupp. Le ret neural e gl alber d decsone consentono d effettuare operazon d classfcazone, fanno coè uso della conoscenza acqusta n fase d addestramento per classfcare nuov oggett o prevedere nuov event. Le tecnche d anals delle assocazon consentono d ndvduare delle regole nelle occorrenze concomtant d due o pù event. A queste s aggungono le sequental patterns ossa tecnche d ndvduazone d sequenze temporal e algortm genetc. Queste tecnche sono applcabl a qualsas ambto d ndagne, n generale trovano applcazone tutte le volte che samo d fronte a grand quanttà d dat e abbamo l'esgenza d conoscerne l contenuto. 56
Fg. 4. 4.4 Il processo d estrazone d conoscenza Indpendentemente dal tpo d applcazone specfca, un processo d estrazone d conoscenza percorre alcune fas che possono essere schematzzate n: Defnzone dell obettvo Indvduazone delle font d dat Estrazone ed acquszone de dat Pre-processng Data mnng Interpretazone e valutazone de rsultat Rappresentazone de rsultat 57
Lo schema seguente mette n luce la natura teratva del processo. La fase d valutazone può, nfatt, portare da una semplce rdefnzone de parametr d anals utlzzat, ad una rdefnzone dell ntero processo a partre da dat estratt. Fg. 5. Mentre l ndvduazone d patterns avvene automatcamente, l ntero processo d estrazone della conoscenza è dffclmente automatzzable e rchede l convolgmento d vare professonaltà come espert del domno applcatvo, specalst n anals dat, nformatc. 58
4.5 L'anals de cluster Nella nostra tes la metodologa d data mnng è stata utlzzata adottando la tecnca d cluster analyss per la classfcazone de pazent. L'anals de cluster, cluster analyss, a volte tradotta come anals de grappol è una tecnca nata negl ann 60 e 70, mrata all'ndvduazone d agglomerat d dat all'nterno d una popolazone nota. Gl obettv fnal possono essere pù dsparat, come l'ndvduazone o la convalda d un'potes d rcerca a partre da dat, l'solamento d pattern caratterstc n determnate sotto-popolazon, o la classfcazone de dat. In questa sezone saranno espost prncpal strument dell'anals de cluster con quest'ultmo scopo n mente. Fg. 6. 59
Fg. 7. L'anals de cluster s basa su procedure semplc e faclmente automatzzabl, fa uso d tecnche eurstche e pogga su una matematca puttosto elementare. D'altra parte, propro la sua semplctà ne ha favorto la dffusone tra rcercator delle scenze natural, e la leggbltà de suo rsultat, l'alto potenzale eurstco e la dsponbltà d numeros strument d anals automatca ne fanno uno strumento valdo e mertevole d consderazone. Nell'ambto d un'anals dscrmnante, o d una procedura d classfcazone automatca n generale, può aver senso cheders se alcune varabl, s supponga n un numero q, non sano rdondant, coè se non aggungano alcun'nformazone utle alla classfcazone rspetto all'nseme delle rmanent p-q. La rsposta a questa domanda s rvela d notevole nteresse se alcune varabl sono partcolarmente costose o dffcl da ottenere. Paradossalmente, l'elmnazone d varabl che sngolarmente presentano un basso ndce d separazone può rvelars una pessma dea. Vceversa, è possble che 60
una varable con un alto contenuto nformatvo a fn della classfcazone sa superflua se utlzzata con altre varabl. Come ne metod statstc, è utle ora nvece analzzare le prncpal procedure d trasformazone e d normalzzazone delle varabl. 4.6 Trasformazone e normalzzazone delle varabl Nell'anals de cluster è fortemente consglato l'utlzzo della trasformazone nonché della normalzzazone, poché rende l rsultato ndpendente dalle untà d msura adottate per le varabl stesse. Inoltre, la normalzzazone fa s che tutte le varabl contrbuscano n ugual msura alla classfcazone. Per trasformazone d una varable, o attrbuto, s ntende la dervazone d nuove varabl attraverso l'applcazone d funzon a quelle orgnare. In formula: Y def f ( Y ) p In alcun cas può essere utle applcare ad alcune varabl delle trasformazon non lnear, al fne d correggerne la dstorsone. Tra le trasformazon lnear, la pù usata è senz'altro la seguente: Y Y E [ Y Var [ Y ] ] p spesso denomnata normalzzazone. Naturalmente, nella pratca s utlzzano le stme camponare d queste quanttà. S verfca faclmente che, le varabl così trasformate, hanno meda camponara nulla e varanza camponara untara. S not nfne che le nuove varabl sono admensonal. Esstono forme alternatve d 6
normalzzazone. Ad esempo, nel caso n cu valor delle varabl sano non negatve, s può far uso della formula: Y Y max e d p dove s è ndcato con e l'-esmo versore, e qund l prodotto scalare, mentre d rappresenta la componente -esma dell'osservazone -esma (s rcord che d è stato defnto come un vettore colonna). In sostanza, s dvdono dat rlevat d cascuna varable per l valore massmo, n modo che tutt valor delle nuove varabl sano comprese nell'ntervallo untaro. Anche quest'ultmo sa l pù pccolo ntervallo contenente tutt nuov valor, s può rcorrere alla seguente formula: Y max Y e d mn e mn d e d p Ne paragraf a segure s assumerà d lavorare con una matrce d varabl normalzzate. Ora nzamo a trattare le prncpal tecnche d anals de cluster che s suddvdono n due ampe categore: metod d rpartzone e metod gerarchc. Preme sottolneare che l nostro studo verte prncpalmente sull'utlzzo d procedure d tpo gerarchco, ampamente descrtte n questo captolo, rcordando nvece che pur fornendo una descrzone dettaglata de metod d rpartzone, ess non saranno tecncamente sfruttat nel nostro lavoro. 62
4.7 Metod d rpartzone L'obettvo d questa classe d algortm è la rpartzone de dat dsponbl n n sottonsem o cluster C,.,Cn qund tal per cu: C C... C k C 0 d = k n modo che gl element d ogn sottonseme sano l pù compatt possble. E' l'nterpretazone e la formalzzazone d questa propretà alquanto sfumata che caratterzza sngol algortm. Alcun d loro procedono eurstcamente, mentre altr cercano d ottmzzare una determnata funzone obettvo. Prncpale esponente della categora de metod d rpartzone è l'algortmo K- means, d gran lunga l pù noto ed utlzzato. Esso utlzza come funzone obettvo da mnmzzare la somma de quadrat delle dstanze tra punt e la meda camponara del cluster cu appartengono. In formula: S w def n N d m ' d m Prma d presentare l'algortmo s fa notare che l numero d confgurazon possbl degl n cluster sugl N dat s dmostra essere par a n n! n n 63
che esplode faclmente per valor non banal de due parametr. Aggungamo qund che una rcerca esaustva della confgurazone ottma è qund mproponble. Sa x l vettore d lunghezza N che conserva codc assocat a cluster d appartenenza d cascun dato. Il metodo K-means, partendo da un assegnamento nzale x 0 e scandendo dat uno ad uno, ad ogn passo calcola le mede e la funzone obettvo, e assegna l'osservazone n esame al cluster per cu la nuova valutazone della funzone obettvo è mnma. Il procedmento s arresta allorquando x rmane nvarato per N ccl consecutv. Questo algortmo è ottmo ad ogn passo, ma non trova necessaramente la soluzone ottma cercata. E' consglable pertanto rpetere la procedura con dverse confgurazon nzal. S tenga n consderazone, comunque, che la funzone obettvo soffre d alcune lmtazon, e fornsce rsultat scadent per cluster non suffcentemente compatt e separat, o avent cardnaltà molto dverse tra loro. 4.8 Metod gerarchc Nella nostra tes c samo avvals nvece d algortm prettamente gerarchc, che pù d altr hanno rscosso successo all'nterno delle comuntà scentfche d fsc, naturalst e socolog, tanto che alcune pubblcazon s rferscono con l termne cluster analyss alla sola anals gerarchca de cluster. L'obettvo d quest algortm è l'organzzazone de dat n una struttura gerarchca, che raggruppa osservazon molto sml n pccol cluster a lvell pù bass, e osservazon pù bascamente collegate n cluster pù grand e generc a lvell pù alt, fno ad arrvare all'nseme d tutt dat. Formalmente, s ottene una sequenza d h partzon d cardnaltà strettamente crescente degl N dat. Sa n h la cardnaltà della -esma partzone. Sarà allora: n... n h N 64
In altre parole, la prma partzone della sequenza è rappresentata da un solo nseme C ={d < < N} comprendente tutte le osservazon; la seconda partzone prevede n 2 > 2 sottonsem dsgunt e complementar d C, e così va, fno all'ultma partzone, che s not non prevede necessaramente la frammentazone de dat n N sngolett o cluster degener. I metod d anals gerarchca s dstnguono n due mportant categore: le dvsve o d suddvsone, nonché le procedure da no utlzzate, ossa le agglomeratve o assocatve. Nelle prme nuov cluster sono ottenut per suddvsone d cluster appartenent al lvello precedente. In partenza c'è un unco cluster con tutt gl ndvdu, alla fne c sono tant cluster quant sono gl ndvdu. Le dvsve costruscono un dagramma ad albero, dendrogramma, che dà un'mmagne delle relazon fra gl oggett. Fg. 8. Il dendrogramma s costtusce partendo da ram, oggett a snstra {a, b, c, d, e}, sno ad arrvare, per fuson successve, ad un unco ramo fnale, radce. Le fuson sono rappresentate da punt n cu due ram s congungono. Infne approfondamo le procedure mpegate nel nostro lavoro, le agglomeratve o assocatve, dove un nuovo cluster è l rsultato della fusone d due cluster del lvello precedente. In partenza c sono tant cluster quant sono gl ndvdu; alla fne v sarà un unco cluster o radce composto da tutt gl ndvdu. Rcordamo comunque che ndfferentemente dal tpo d categora utlzzata, ogn procedura d cluster analyss gerarchca procede attraverso seguent passagg: 65
Identfcazone delle varabl da utlzzare per la classfcazone Selezone d una msura d dstanza tra untà Selezone d una tecnca d raggruppamento delle untà Identfcazone del numero d grupp entro qual rpartre le untà Valutazone ed nterpretazone della soluzone 4.9 Crter d fusone ne metod gerarchc Sa le procedure dvsve che le agglomeratve de metod gerarchc s avvalgono d dverse tecnche d fusone degl oggett. La prma tra quelle che analzzeremo è l'average group lnkage o legame medo entro grupp, metodo da no sfruttato per la classfcazone de nostr pazent. Con questo tecnca ogn gruppo formato è rappresentato dal valore medo d ogn varable, così, l loro vettore medo e la dstanza nter-gruppo vene defnta come la dstanza tra due vettor med. Consderando due potetc clusters r e s, s attua un'unone de medesm n modo che la dstanza meda sa mnma. La dstanza tra due clusters D (r,s) vene qund defnta come : D (r,s) = Meda { d (,) : dove e sono nel cluster t, cluster formato dall'unone d r e s } In ogn fase del procedmento clusters r e s, n cu D (r,s) è mnma, vengono congunt ma, n questo caso, due cluster unt, hanno medamente la mnma dstanza tra loro punt. 66
Fg. 9. In questa fnestra dervante dal pacchetto Xlmner s evdenza la tecnca d lavoro da no seguta per l'operazone d clusterng su nostr pazent. S procede opzonando la normalzzazone de dat, dopo la scelta del metodo eucldeo per l calcolo della dstanza, vene scelto l'average group lnkage come metodo d clusterng gerarchco da mpegare. Fg. 0. In questa fnestra nvece vene ndcato l numero d clusters che voglamo mpegare nella classfcazone de nostr pazent (2 o 3 class). 67
Ne metod gerarchc sa d tpo dvsvo che agglomeratvo sono compres anche altr crter d fusone d cu fornremo solo una descrzone sommara n quanto non utlzzat nel nostro studo. Infatt un secondo metodo fornto dal clusterng gerarchco nonché da Xlmner è l Sngle lnkage o legame sngolo l quale tende a concatenare gl oggett n una sorta d "serpentna" costruendo cluster contgu e poco separat. Il metodo del Complete lnkage o legame completo nvece tende a costrure raggruppament pù separat e defnt. Entrando sempre pù nel dettaglo possamo dstnguere che tramte l metodo dell'average lnkage o legame medo la dstanza tra due cluster è uguale alla meda artmetca delle dstanze defnte su tutte le coppe d oggett ne due cluster. S termna con l Ward's method o metodo d Ward basato sulla mnmzzazone della devanza entro grupp che è uguale a quando tutt cas sono separat, ed è massma quando ess appartengono tutt a un gruppo unco. 4.0 Tecnche gerarchche e non gerarchche Contrappost a metod gerarchc esstono anche metod non gerarchc che non sono stat utlzzat nella nostra tes. Quest'ultm rsentono meno della presenza d error d msura e d altre font d varanza spura ruscendo n tal modo ad ndvduare meglo grupp coes. Spccano alcune sostanzal dfferenze tra le due tecnche d clusterng: nnanztutto una maggore rgdtà dovuta ad eventual aggregazon mpropre a prm lvell dell'aggregazone vene evdenzata ne metod gerarchc, aggungamo noltre che se un ndvduo vene assegnato ad un gruppo n un determnato stado, v rmarrà n tutt gl stad successv, contraramente a metod non gerarchc dove l'assegnazone può cambare fnché l processo d classfcazone non gunge a convergenza. 68
Il lmte prncpale de metod non gerarchc sta nel dover avere n antcpo un'dea del numero d grupp present;un ulterore lmte sta nel fatto che quest metod possono essere utlzzat solo con varabl msurate per lo meno al lvello degl ntervall, e solo con funzon d dstanza eucldee. 69
Ths document was created wth Wn2PDF avalable at http://www.daneprare.com. The unregstered verson of Wn2PDF s for evaluaton or non-commercal use only.