Metodi gerarchici divisivi. Potenziali problemi. Metodi gerarchici divisivi/2. Metodi gerarchici divisivi/3



Documenti analoghi
52. Se in una città ci fosse un medico ogni 500 abitanti, quale sarebbe la percentuale di medici? A) 5 % B) 2 % C) 0,2 % D) 0,5% E) 0,02%

Successioni. Grafico di una successione

Numerazione binaria Pagina 2 di 9 easy matematica di Adolfo Scimone

SUCCESSIONI E SERIE NUMERICHE

Elementi di matematica finanziaria

Anno 5 Successioni numeriche

Strumenti di indagine per la valutazione psicologica

Le onde elettromagnetiche. Origine e natura, spettro delle onde e.m., la polarizzazione

V Tutorato 6 Novembre 2014

EQUAZIONI ALLE RICORRENZE

Sintassi dello studio di funzione

8. Quale pesa di più?

Sistemi e Tecnologie della Comunicazione

La matematica finanziaria

LA GESTIONE DELLA QUALITA : IL TOTAL QUALITY MANAGEMENT

SUCCESSIONI NUMERICHE

IL CALCOLO COMBINATORIO

Interesse e formule relative.

PARTE QUARTA Teoria algebrica dei numeri

,5 882,5 894,5 906,5 918,5 930,5 942,5 954,5

1 Limiti di successioni

CONCETTI BASE DI STATISTICA

Una funzione è una relazione che ad ogni elemento del dominio associa uno e un solo elemento del codominio

Calcolo della risposta di un sistema lineare viscoso a più gradi di libertà con il metodo dell Analisi Modale

DISTRIBUZIONI DOPPIE

IMPLICAZIONE TRA VARIABILI BINARIE: L Implicazione di Gras

Terzo appello del. primo modulo. di ANALISI

Metodi statistici per l'analisi dei dati

LA VERIFICA DELLE IPOTESI SUI PARAMETRI

Risposte. f v = φ dove φ(x,y) = e x2. f(x) = e x2 /2. +const. Soluzione. (i) Scriviamo v = (u,w). Se f(x) è la funzione richiesta, si deve avere

Metodi statistici per l analisi dei dati

Foglio di esercizi N. 1 - Soluzioni

ANALISI MATEMATICA 1 Area dell Ingegneria dell Informazione. Appello del TEMA 1. f(x) = arcsin 1 2 log 2 x.

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE

Percorsi di matematica per il ripasso e il recupero

Il test parametrico si costruisce in tre passi:

Le carte di controllo

5 ln n + ln. 4 ln n + ln. 6 ln n + ln

Disposizioni semplici. Disposizioni semplici esercizi

Esercizi riguardanti limiti di successioni

Analisi statistica dell Output

Campionamento stratificato. Esempio

Rendita perpetua con rate crescenti in progressione aritmetica

Appunti sulla MATEMATICA FINANZIARIA

Soluzione La media aritmetica dei due numeri positivi a e b è data da M

Analisi Fattoriale Discriminante

Campi vettoriali conservativi e solenoidali

Università degli Studi di Bergamo - Corsi di laurea in Ingegneria Edile e Tessile Indici di posizione e variabilità Esercitazione 2

STATISTICA DESCRITTIVA

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

Statistica di base. Luca Mari, versione

Principi base di Ingegneria della Sicurezza

SUCCESSIONI e LIMITI DI SUCCESSIONI. c Paola Gervasio - Analisi Matematica 1 - A.A. 15/16 Successioni cap3b.pdf 1

Calcolo Combinatorio (vers. 1/10/2014)

Selezione avversa e razionamento del credito

Lezione n Lezioni di Ricerca Operativa. Corso di Laurea in Informatica Università di Salerno. Prof. Cerulli Dott. Carrabs

Teorema 13. Se una sere converge assolutamente, allora converge:

I numeri complessi. Pagine tratte da Elementi della teoria delle funzioni olomorfe di una variabile complessa

DIPENDENZA O CONNESSIONE. Ovvero quando la conoscenza della modalità di X presente su un unità è informativa della presenza della modalità di Y.

Statistica 1 A.A. 2015/2016

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE

LA DERIVATA DI UNA FUNZIONE

Corsi di Laurea in Ingegneria Edile e Architettura Prova scritta di Analisi Matematica 1 del 6/02/2010. sin( x) log((1 + x 2 ) 1/2 ) = 1 3.

Corso di Laurea in Ing. Edile Politecnico di Bari A.A Prof. ssa Letizia Brunetti DISPENSE DEL CORSO DI GEOMETRIA

Approfondimenti di statistica e geostatistica

5. Le serie numeriche

Formula per la determinazione della Successione generalizzata di Fibonacci.

Successioni ricorsive di numeri

Random walk classico. Simulazione di un random walk

Corso di laurea in Matematica Corso di Analisi Matematica 1-2 Dott.ssa Sandra Lucente 1 Funzioni potenza ed esponenziale.

ESERCIZI DI STATISTICA DESCRITTIVA ALCUNI TRATTI DA PROVE D ESAME DA REALIZZARE ANCHE CON L AUSILIO DI UN FOGLIO DI CALCOLO. Angela Donatiello 1

SERIE NUMERICHE Esercizi risolti. 2 b) n=1. n n 2 +n

SERIE NUMERICHE Con l introduzione delle serie vogliamo estendere l operazione algebrica di somma ad un numero infinito di addendi.

Parte 2. Problemi con macchine parallele

Corso di Laurea Magistrale in Ingegneria Informatica A.A. 2014/15. Complementi di Probabilità e Statistica. Prova scritta del del

Capitolo 3 CARATTERIZZAZIONE MECCANICA DELLE FIBRE

Statistica (Prof. Capitanio) Alcuni esercizi tratti da prove scritte d esame

Distribuzione di un carattere

APPUNTI DI MATEMATICA ALGEBRA \ ARITMETICA \ NUMERI NATURALI (1)

Random walk classico. Simulazione di un random walk

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Progressioni aritmetiche

Introduzione all assicurazione. (Dispensa per il corso di Microeconomia per manager. Prima versione, marzo 2013; versione aggiornata, marzo 2014)

STIME E LORO AFFIDABILITA

SUCCESSIONI NUMERICHE

Complessità Computazionale

Introduzione alla Statistica descrittiva. Definizioni preliminari. Definizioni preliminari. Fasi di un indagine statistica. Tabelle statistiche

PROGRAMMA RISPARMIO ENERGETICO EFFICIENTAMENTO ENERGETICO DEGLI EDIFICI PRIVATI

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

Introduzione all assicurazione. (Dispensa per il corso di Microeconomia)

evohome RISPARMIO ENERGETICO E NON SOLO Un obiettivo comune a milioni di famiglie: risparmiare energia senza rinunciare al comfort.

Il confronto tra DUE campioni indipendenti

che sono una l inversa dell altra; l insieme dei messaggi cifrati C i cui elementi sono indicati con la lettera c.

3.1 Il principio di inclusione-esclusione

ESAME DI STATO DI LICEO SCIENTIFICO CORSO DI ORDINAMENTO 2006

Ottica della Contattologia I. Ottica delle lac. Differenze ottiche nella clinica della visione

Probabilità e Statistica I

Economia Internazionale - Soluzioni alla IV Esercitazione

Limiti di successioni

I appello - 29 Giugno 2007

Transcript:

Metodi gerarchici divisivi La costruzioe gerarchica può ache essere scissoria (o divisiva): si parte da u solo cluster che iclude tutte le etità e si arriva ad ua suddivisioe i clusters di ampiezza uo. Si procede dalla L q alla L q+ per bipartizioe di uo dei cluster già i L q. Metodi gerarchici divisivi/ Nelle teciche scissorie, il primo passaggio da L ={U,U,..., U }] ad L formato da L =[{U i, U i, U ii }, {U j, U j, U jj }] cosiste i ua bipartizioe del data set i due sottoisiemi. Le possibilità di scelta soo Se = si esamiao suddivisioi. Questo approccio ha il vataggio di partire dal puto i cui essu dato è disperso perché il data set è acora itegro. Ioltre, o è ecessario procedere fio all ultima suddivisioe (u cluster di due etità scomposto i due clusters di ua sola etità ciascuo) dato che la qualità del risultato al livello L q può essere cotrollata rispetto a quella attesa. Se è grade, il umero di bipartizioi è elevato al puto che o sempre è possibile applicare teciche scissorie. La complessità computazioale è il maggiore ostacolo alla loro diffusioe. Metodi gerarchici divisivi/ Si realizza ua sequeza di bipartizioi (split) a partire dall itero data set per poi fermarsi dopo u certo umero di suddivisioi Ad ogi stadio uo dei gruppi già esisteti, diciamo C è suddiviso i due uovi gruppi o vuoti C e C. Le scelte da fare soo quidi due: quale cluster scomporre e i base a quale criterio effettuare lo split Poteziali problemi La strategia delle suddivioi dovrebbe evitare lo splittig delle uità el cluster cetrale Uità simili debboo cofluire ello stesso cluster ed uità dissimili debboo essere collocate i cluster diversi Questo pricipio porta a cosiderare la variabilità itera dei cluster da otteere rispetto a quelli già formati. Se si dispoe solo delle distaze tra le uità si dovrà ragioare i termii di omogeeità dei cluster

Scomposizioe della variaza (uivariata) i = X rj # µ X rj # µ r r = j = Si soo otteuti due fattori additivi: Variaza withi (media delle variaze all itero di ciascu gruppo) Variaza betwee globale) i ( ) = i r = j = ( ) + µ r # µ [( ) + ( µ r # µ )] ; i = X rj # µ r ( ) + ( µ r # µ ) X rj # µ r ; r = j = r = j = % i ( X rj # µ r ) ( * j = * = r * + r µ r # µ r = r * r = * ) r = j = = # r r + # r ( µ r µ ) % = r ) #( + * r + r = r = ( ) (media degli scarti tra le medie di gruppo ed il cetroide i ( ) ( ) + ( µ r # µ ) X rj # µ r r = r = # r = ( r i j = ) + µ * r µ X ij valore della j-esima variabile ello i-esimo cluster ( ) Zero Scomposizioe della variaza (multivariata) La variaza totale è data dalla somma di prodotti esteri T = % )( X # i ( µ ) X i ( µ i= ( ) t dove ( ) riga della matrice dei dati ( ) cetroide della matrice dei dati *, X i = i, i,, + im -, µ = µ,µ,,µ m Se esistoo gruppi di umerosità,,, oguo co il proprio cetroide µ, µ,, µ, la deviaza totale è espressa da T = ir ( X i # µ )( X i # µ ) t = r= i= [ ][ X i # µ r ] t = ir ( X i # µ r ) # ( µ # µ r ) ( ) # ( µ # µ r ), µ r = µ r,µ r,,µ mr r= i= ( ) Dove ir è la fuzioe idicatore che è uo se lʼuità i appartiee al cluster r e zero altrimeti Scomposizioe della variaza/ Lo sviluppo dei prodotti comporta T = ir ( X i # µ r )( X i # µ r ) t # ir ( X i # µ r ) µ # µ r r= i= r= i= # ir ( µ # µ r )( X i # µ r ) t + ir µ # µ r r= i= Isoliamo le quatità legate ad u solo idice r= i= T = ir ( X i # µ r )( X i # µ r ) t % ( # ir ( X i # µ r )* µ # µ r ) r= i= [ ] # ( µ # µ r ) ir ( X i # µ r ) t + ir µ # µ r r= i= r= i= r= i= = ir ( X i # µ r )( X i # µ r ) t + ir µ # µ r r= i= r= i= ( ) t # ( )( µ # µ r ) t ( ) t ( )( µ # µ r ) t ( )( µ # µ r ) t Le espressioi i paretesi quadre soo ulle i quato somme degli scarti dalle medie aritmetiche allʼitero dei gruppi. Scomposizioe della variaza/ La suddivisioe del data set i gruppi o ha effetto se le medie per gruppo soo tutte uguali tra di loro (e duque uguali alla media totale). I estrema sitesi si è otteuta la scomposizioe della variaza T = % * *( # ir ( X i ) µ r )( X i ) µ r ) t + % # **( ir µ ) µ r r= i= r= i= ( )( µ ) µ r ) t Totale = Withi + Betwee T = W + B Se le medie parziali soo diverse allora i gruppi soo ua fote di variabilità che è tato più forte quato più cresce il divario rispetto al cetroide dei dati (media totale). Ogi suddivisioe del data set i gruppi varierà etrambi i termii della scomposizioe. Dato che la variaza totale è fissa: se W aumeta allora B deve dimiuire e viceversa.

Metodo Edwards e Cavalli-Sforza Questi due studiosi hao proposto di orgaizzare le scissioi dei gruppi i modo da redere miima, per quella suddivisioe, la traccia della matrice di deviaze-codeviaze withi rispetto ai gruppi T = % **( # ir X i ) µ r r= i= ( )( X i ) µ r ) t Semplificazioe Il fatto è che, o tutte le suddivisioi soo iteressati e gra parte del tempo sarebbe sprecato ad esamiare clusterig impropoibili. U primo elemeto di semplificazioe deriva dal legame tra il quadrato della distaza euclidea di coppie di etità e la traccia della matrice withi. Ricordado che, oostate le diverse dimesioi, Tr(XX t )=Tr(X t X) si ha La stessa strategia si avrebbe co la massimizzazioe di Tr(B), ma la miimizzazioe di Tr(W) è più semplice Il metodo più sicuro per trovare la suddivisioe ottima è di esamiarle tutte e scegliere quella a cui è associato il mior valore di Tr(W). L esame a tappeto o è però praticabile: se u computer fosse i grado di esamiare milioe di suddivisioi al secodo per effettuare il primo passaggio co = occorrerebbero circa ai. Nessu computer è oggi i grado di realizzare l esame di u milioe di suddivisioi i u secodo ( ) = ir ( )( X i µ r ) t = ir Tr W # r= i= # X i µ r = ## ir jr d ij i= j = i= j = che cosete di valutare gli split delle uità e el cotempo mateersi vicii alla semplice clusterig gerarchica. # # jr X i µ r ( ) ( ) t X j µ r NB basarsi sulle distaze euclidee implica che le teciche scissorie possoo applicarsi ache co altre misure di distaza. X X A B C D E F Esempio B C D E F A B C D E ( ) ( ) ( ) ( )........ T.. =.; = La traccia della matrice per lo split: w =(A,B,C,D) e w =(E,F) può essere ricavata dalla matrice delle distaze euclidee al quadrato: var(w )=(+++++)/=/= var(w )=()/=. Da otare che Tr(w)=+.=., Tr(T) =/=. e che Tr(B)=.-.=. Tr(W)=+= Esempio (cotiua) La matrice delle distaze euclidee al quadrato ha tutte le iformazioi utili a valutare ogi possibile suddivisioe. Per = soo = -. Lo splittig più efficace risulta essere {A,D,E}, {B,C,F} che iduce il miimo icremeto ella dispersioe withi cioè da zero si passa a. Per determiare tale suddivisioe ottimale è stato però ecessario esamiare tutte le possibilità. A questo puto la deviaza totale:. è divisa i Tr(w)=.; Tr(B)=. No i C

Esempio (cotiua/) Si può tetare ua ulteriore suddivisioe di uo dei due clusters co due sub matrici di quella origiale. Per redere i calcoli più praticabili, MacQuee () ha suggerito di cosiderare, ad ogi sigolo livello, solo il cluster co maggiore deviaza. ( ) Tr( w ) Tr w Tr w ( ) A{ D,E} D{ A,E} E{ A,D} ( ) Tr( w ) Tr w Tr w ( ) B{ C,F} C{ B,F} F{ B,C} Tra tutti i possibili split quello più efficiete è el cluster co {F}, {B,C} che porta a {A,E,D}, {B,C}, {F} co Tr(w )=., Tr(w )= e Tr(B)=.. Lo splittig di C può avveire i due modi {A}, {D,E} e {E}, {A,D} bisogerà quidi seguire due possibilità. Il metodo Cavalli-Sforza, ache se semplificato, è molto dispedioso e si può realizzare solo co poche uità. Applicazioe: Bosto house data set medv Split Cavalli-Sforza lstat Metodo divisivo di Macaughto-Smith (Diaa) Diaa/ Al fie di aggirare l immeso ostacolo delle operazioi di splittig si può procedere per via approssimata e co iterazioi. L idea è di attuare la bipartizioe di u cluster collocado ua uità alla volta el gruppo uovo scegliedo tra quelle più margiali del gruppo da dividere. La prima uità trasferita el gruppo uovo è quella la cui distaza media dalle uità del gruppo i cui si trova è maggiore e che quidi cotribuisce di più alla dispersioe del gruppo origiale: B C D E F A B C D E d ( A) = ( + + + + ) / =. d ( B) = ( + + + + ) / =. d ( C) = ( + + + + ) / =. d ( D) = ( + + + + ) / =. d ( E) = ( + + + + ) / =. d ( F) = ( + + + + ) / =. Resta da vedere ora se l uità trasferita o trascii co se qualche altra uità che potrebbe risultare più prossima al uovo gruppo (che al mometo cotiee solo la A) piuttosto che al vecchio gruppo. Dobbiamo quidi cofrotare, per ciascua delle uità che rimagoo el vecchio gruppo, la distaza o dissimilarità media dal vecchio e dal uovo gruppo B C D d O ( + + + ) / =. ( + + + ) / = ( + + + ) / =. d N.. E F d O ( + + + ) / = ( + + + ) / = d N O=old, N=ew L etità più remota dal resto del suo cluster è la A che ha ua dissimilarità media maggiore di ogi altra uità. Quidi, el secodo gruppo deve essere collocata la A per cui la suddivisioe proposta è {A} e {B,C,D,E,F}. Nessua altra etità segue la A che quidi rimae da sola a questo livello. N.B. Il primo splittig è duque meo efficiete del passo Cavalli Sforza.

Diaa/ A questo puto ci cocetriamo sul cluster {B,C,D,E,F} per verificare se c è u altra etità margiale (l altro cluster, a questo puto, cotiee solo la A). L etità cadidata è la F, co dissimilarità media di, superiore alle altre. Vediamo se qualche altra uità la accompaga B C D E d O ( + + ) / = ( + + ) / =. ( + + ) / =. ( + + ) / =. d N... L uità C deve cambiare cluster i quato è più vicia al uovo gruppo (formato dalla F) che al vecchio. Effettuiamo lo spostameto e ricotrolliamo le dissimilarità medie B D E d O ( + ) / = ( + ) / =. ( + ) / =. d N ( + ) / = ( + ) / = ( + ) / =.. Poiché le differeze soo tutte egative è da riteere che o vi siao altri spostameti utili verso {F, C} a questo livello. Diaa/ Ua ulteriore suddivisioe può essere tetata operado sul cluster che ora risulta più umeroso: {B,D,E} (o uo scelto i base ad u criterio di massima variabilità). U occhiata alla tabella delle distaze ei cluster attuali rivela che sia la D che la E hao ua distaza media che è maggiore o uguale delle altre Co tre sole uità o è il caso di proporre uo splittig co distaze medie così simili. L albero delle divisioi è quidi Il umero sotto il cluster è il diametro del cluster, cioè la distaza massima itera al cluster. Esempio Paesi dell OECD per alcue variabili macroecoomiche. Si può otare la preseza di tre gruppi tra cui il cluster margiale formato da Portogallo Grecia Il Meico è u outlier OECD data set MEX POR GRE SWI NOR JAP ITA GER BEL UK DEN AUS NET SPA FRA..... Flower data set (Everitt) Gerarchica agglomerativa Gower-McQuitt Gerarchica-divisiva Peoia Giglio Mughetto Erica Ortesia Garofao Rosa_rossa Rosa_Tea Giestra Tulipao Gladiolo Dalia Geraio NTSDM Fucsia Camelia Iris SWE FIN USA Garofao Erica Mughetto Ortesia Rosa_rossa Giestra Rosa_Tea Giglio Peoia Begoia Iris Dalia Gladiolo Tulipao Geraio NTSDM Camelia Fucsia... Begoia. CAN AUT Ci soo aalogie e ci soo differeze. Si tratta di due agolature diverse ed etrambe possoo cotribuire a chiarire u problema di classificazioe. La aggregativa va meglio se ci aspettao molti gruppi; la divisiva è da preferire se si cercao pochi cluster.

Mo.A Kaufma e Rousseeuw dedicao uo spazio particolare alle matrici di dati i cui siao preseti solo variabili biarie. I questo caso NON si procede alla costruzioe della matrice delle distaze. Ad ogi stadio si sceglie u cluster ed ua delle variabili biarie per procede alla bipartizioe. Il processo cotiua fio a quado o si raggiuge ua regola di stop oppure si perviee ad ua clusterig formata da tutti sigoletti. La strategia è gerachicha perché i livelli di bipartizioe si aidao ed è mootetica perché si usa ua variabile alla volta per riallocare le uità del gruppo prescelto. Mo.A/ La scelta cruciale riguarda la variabile secodo la quale dividere u cluster. Dovrebbe essere quella più simile a tutte le altre variabil secodo ua certa misura di associazioe. Michael Yule _ Yule _ Variabile ( ad bc) ( a + d) + ( b + c) ad bc ad + bc ad ad + bc bc Variabile % a b a + b c d c + d # a + c b + d a + b + c + d I coefficieti a siitra variao tra - ed e rimagoo defiiti i preseza di ua coloa o ua riga di zeri. Esempio X X X X X X X X........ Associazioe Yule_ Cerchiamo la variabile più cetrale (ovvero più simile alle altre) La somma di valori co sego iesca effetti compesativi o sempre ragioevoli. Calcoliamo le somme solo su valori positivi Il prossimo split sarà per la X (ª) el secodo cluster ( =) La variabile cadidata per lo splittig è la X Biodi Celesti Marroi Lavadi Violett Rosei Araci Gialli Verdi Neri Biachi Rossi Cremisi Brui Mori Idaci Azzurri Rosati Cogomi a colori X Mo.A (pacage cluster) X X Separatio step X X X X X X X X X X X X X X Misura di associazioe del comado moa ij = ad # bc Il separatio step è il valore del coefficiete prima di decidere lo split. Le uità soo ell ordie trovato dall algoitmo. La variabile resposabile dello split è riportata i capo alla barra. La lughezza della barra è data dal umero di split effettuati per arrivarci

Clam Crab Toad Catfi Tua Carp Haddo Hoe House Flea Lar Para Bear Seal Boar Leopa Lio Eleph Giraf Goat Biar variables Eggs Aquatic Tail Altro esempio Feathers Aquatic Predator Fis Separatio step Toothed Predator Hair Domestic Domestic Predator Domestic Veomous Se la barra arriva fio al margie allora il cluster corrispodete o può essere frazioato. Classificazioe ammissibile La classificazioe perfetta è troppo rigida dato che esclude casi ivece del tutto accettabili mi d ( U i,µ r ); i =,,, i =r { } # E opportuo disporre di ua defizioe meo vicolate. Ua classificazioe o clusterig è ammissibile se i ogi cluster si trova ua uità tale che le uità estere al cluster distao da essa più delle uità itere al cluster ma d ( U i,µ r ); i =,,, Il problema della cluster aalsis o è più di cercare ua gerarchia di gruppi, ma di idividuare le uità leader dei vari gruppi i r { } Esempio Raggruppameto iterativo I situazioi come quella qui presetata ogi algoritmo ammissibile deve proporre i prima istaza ua classificazioe dei dati i gruppi Le procedure che rietrao i questa secoda classe hao u cocetto metrico del cluster, lo vedoo cioè come u isieme di puti che soo più o meo vicii i uo spazio metrico vicii. Allitero del cluster si idividua il cosiddetto cetroide che costituisce il puto di massimo addesameto delle uità ovvero il puto verso cui le uità cofluirebbero se o ci fossero forze differeziati (la variabilità o la eterogeeità) a teerli distiti. I geere il cetroide è dato dal vettore delle medie calcolate su tutte e solo le uità icluse el cluster, ma soo possibili altre defiizioi (ad esempio il vettore delle mediae). Fissato il umero di cluster e scelta ua cofigurazioe iiziale dei cetroidi si procede alla escussioe delle uità assegadole, i base ad u qualche criterio, ai cluster cui soo più vicie. A questo puto si ricalcolao i cetroidi e si effettua ua uova escussioe. Il processo termia quado essua uità cambia di cluster.

Scelte ecessarie La strategia di raggruppameto iterativo si precisa co delle scelte e si articola i varie fasi. Le scelte riguardao Il umero di cluster che, a differeza dei metodi gerarchici, qui deve essere fissato di volta i volta Il criterio i base al quale ua partizioe può essere giudicata preferibile rispetto ad ualtra Il tipo di passo cioè lo schema di riallocazioe delle uità tra u cluster e lʼaltro. Ifatti qui le apparteeze delle uità possoo essere modificate. Le fasi cruciali del raggruppameto iterativo però soo sempre due: La prima cosiste ella defiizioe dei cetroidi iiziali che costituirao i poli del primo addesameto delle uità. Tale scelta può determiare il successo o lisuccesso del metodo. La secoda fase è costituita dal processo di assegazioe e rilocazioe delle uità ed è caratterizzata dalle scelte del criterio e del passo Il umero di partizioi I metodi di raggruppameto iterativi presuppogoo che il umero di cluster sia già fissato, o meglio, lo cosiderao u parametro della procedura, che può quidi cambiare da prova a prova, ma che rimae fisso ella data applicazioe. Il modo più efficiete di suddividere uità i cluster è quella di cercare lʼottimo del criterio prescelto valutadolo su tutte le possibili partizioi di oggetti i gruppi Come si è già visto, tale possibilità è solo teorica, i quato realizzabile solo per valori molto piccoli di. Ad esempio esempio per = e = si devoo esamiare ʼʼ partizioi Ne cosegue che la ricerca della partizioe ottimale o può che avveire esamiado u umero limitato di partizioi possibili. E questo uo dei limiti del raggruppameto iterativo: trae che per le situazioi i cui soo coivolte pochissime uità o si potrà essere sicuri che la soluzioe trovata sia veramete quella ottima. Raggrupameto iterativo: schemi geerali Lʼobiettivo comue è di determiare la clusterig ammissibile che sia più efficace rispetto alla omogeeità itera dei cluster ed al loro isolameto estero. Esistoo diverse strategie per questa fialità, ma e studieremo solo due Partitiig aroud medoids (PAM) Si adoperao le distaze tra le uità. I cetroidi coicidoo co uità tra le cosiderate Metodo delle -medie Si usa la matrice dei dati limitatamete alle variabili su scala a rapporti ed itervalli. Talvolta ache le variabili biarie. I cetroidi soo otteuti come vettori delle medie dei valori osservati ei cluster P.A.M (algoritmo) ) Si scelgoo uità (ache a caso) distite e distati che possao agire da cetroidi dei cluster ) Si forma la clusterig assegado le varie uità al cluster il cui cetroide è più vicio ) Si ridefiiscoo i cetroidi i base alla uova articolazioe dei gruppi ( M r = % U r # d( U r,u i ) = miimo ) i =r * ) Si valuta la qualità Q della clusterig otteuta. Se è valida si fermao le elaborazioi altrimeti ripredoo dal puto. Q = ## # r =i= j = ir jr d ij

Esempio Fuzioameto della tecica PAM + % ( ) * + # K= -. -. - Esempio (cotiua) :. :. clusplot(pam( =, =, medoids = c(,, )))..... Silhouette plot of pam( =, =,clusters medoids Cj = c(,, )) =. j : j aveicj si - -..... :. :. :...... - -. - -. -...... Iteratio.. :. [,] :.. Iteratio j : j aveicj si Se si richiedoo cluster la soluzioe si modifica secodo i cetroidi iiziali Silhouette plot of pam( =, =,clusters medoids Cj = c(,, )) = Importaza dei cetroidi iiziali Se si richiedoo cluster la soluzioe si modifica secodo i cetroidi iiziali - :. - - j : j aveicj si Si cotiua fiché si ottegoo migliorameti apprezzabili - [,] Silhouette plot of pam( =, =)clusters Cj = Ricalcolare le uità tipiche e riassegare le uità clusplot(pam( =, =, medoids = c(,, ))) clusplot(pam( =, = )).. # Compoet. Assig each remaii g object to earest medoids Compoet # Arbitrar choose object as iitial medoids -. -. %.. Compoet ( -. ) -. * La soluzioe jel data set a destra è soddisfacete tato che o cambia se si modificao i cetroidi iiziali Total Cost = # -.. - -....

- -. - -... Iteratio... Iteratio. Importaza dei cetroidi iiziali/ La scelta a caso di uità o da molte garazie. Ache la scelta dei cetroidi come uità occupati posizioi particolari el data set Iteratio Iteratio...... - -. - -... - -. - -... Iteratio Iteratio.. P.A.M (medoidi iiziali) Fra i tati metodi dispoibili discutiamo ua strategia che ha come fialità la copertura uiforme dello spazio delle uità descritto dalla matrice delle distaze. Il primo medoide coicide co luità meo periferica rispetto a tutte le altre ovvero luità per la quale è miore il totale delle distaze # % % M = U r d( U r,u i ) = miimo ( % )% i=.. - -. - -..... - -. - -..... - -. - -... Le scelte più efficaci soo quelle derivate da ua applicazioe di ua tecica meo impegativa: gerarchica (agglomerativa o divisiva) oppure applicare i via prelimiare la PAM ad u subset di addestrameto. Idichiamo co M= {M, M,, M s } lisieme delle uità già scelte come medoidi e sia s <. Luità che si va ad aggiugere agli altri medoidi deve essere distaziata da essi al fie di descrivere quelle parti del data set o acora be rappresetate. P.A.M (medoidi iiziali)/ Esempio Per riassumere la distaza che separa luità etrate dai medoidi già i M si può optare per la miima distaza massima. Si potrebbe ache scegliere il uovo medoide come lʼuità che ha la massima distaza media o mediaa da quelle ora i M. Tale opzioe dovrebbe freare la tedeza a costruire cluster ei pressi di valori remoti. Il metodo Keard-Stoe trova i primi due medoidi come le uità poste a più grade distaza reciproca. Quelli successivi si possoo otteere co lo stesso pricipio oppure uo dei precedeti E evidete che se si hao iformazioi su qualcuo dei medioidi potrao essere iserite e limitare la ricerca degli altri medoidi solo per quelli macati. Ruspii data set Pur avedo provato quattro metodi diversi per determiare i medoidi le uità prescelte soo sempre quelle i rosso

Esempio (cotiua) Esempio di gruppi o-gruppi Uso della pam() clusterig Ruspii data set Scelta di Faasullo data set Ampiezza media del profilo........ ottimo (umero di cluster) Ampiezza media del profilo..... Y...... ottimo...... (umero di cluster) X Se il data set è be strutturato, la soluzioe data dalla tecica PAM è sempre soddisfacete La Pam, come tutte le teciche di aalisi dei gruppi, trova i cluster ache quado o ci soo Cofroto co il CusPlot Ruspii data set Fasullo data set Applicazioe: Coffee data set Compoet - - Compoet - F.. -. cluster Ceter - - - Compoet Compoet Co due sole variabili si può sfruttare la rappresetazioe su piao cartesiao (usado rgl si può lavorare i d) I gruppi del Ruspii soo molto più coesi ed isolati rispetto a quelli del fasullo.eʼ questo che covice della loro auteticità. -. -... F Il grafico è stato otteuto usado la clusterig su gruppi e le prime due coordiate pricipali.

Pam e umero di cluster Meriti della tecica PAM A[,] G data set A[,] Compoet - - - - clusplot(pam( = D, = pam.bestc)) Silhouette plot of pam( = D, = pam.bestc) = clusters C j j : j ave icj s i :. :. :. Si basa sulla matrice delle distaze e può quidi essere utilizzato i ua vasta gamma di cotesti, ache dove il cocetto di metricità o è appropriato. I cetroidi dei cluster (uità leader) soo delle etità proprie del data set e o uità artificiali sitetizzate dallʼalgoritmo di classificazioe. I aggiuta si collocao al cetro dei rispettivi cluster caratterizadoe la atura Lʼaggiorameto dei cluster o richiede di ricalcolare le distaze perché si usao quelle origiali. - Compoet...... Silhouette width s i La soluzioe è proposta el pacage fpc dove il umero di cluster viee stmato co la optimum average silhouette width. Si può usare il pacchetto NbClust Eʼ poco sesibile ai valori remoti fitato che la fuzioe per calcolare le distaze le matiee i u itervallo defiito. Lʼalgoritmo PAM o impoe ua struttura ai dati come fao le teciche gerarchiche