APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

Transcript

1 APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in gruppi o clusters secondo criteri di similarità (o dissimilarità distanza). I gruppi devono essere caratterizzati da: un elevato grado di omogeneità (similarità) interna un elevato grado di eterogeneità (dissimilarità) tra i gruppi

2 L omogeneità e l eterogeneità vengono misurate (con misure che verranno introdotte in seguito) sulla base di un insieme di variabili. È importante che le variabili utilizzate: - presentino una certa eterogeneità nel collettivo oggetto di osservazione (per permettere di distinguere tra i diversi rispondenti) - siano rilevanti per lo scopo della ricerca (altrimenti potrebbero avere un ruolo del tutto fuorviante e dare luogo a risultati privi di senso). La cluster analysis ha un ruolo molto importante nelle analisi di segmentazione del mercato. Un segmento di mercato è un gruppo di clienti effettivi o potenziali che ci si può attendere rispondano in modo simile all offerta di un prodotto o di un servizio. 2

3 La segmentazione del mercato è il processo di divisione dei clienti (le cui valutazioni di un prodotto o di un servizio possono essere estremamente variabili) in gruppi (segmenti) di clienti le cui valutazioni sono alquanto omogenee all interno del gruppo. La cluster analysis non è importante solo per la segmentazione della clientela ma anche per: l identificazione di nuovi prodotti attraverso la previa clusterizzazione dei prodotti già esistenti sul mercato attraverso le loro caratteristiche. Formare gruppi di marchi o prodotti simili rispetto a caratteristiche specifiche con lo scopo di individuare i competitor, gli spazi di mercato non occupati ed eventuali nicchie di mercato disponibili. 3

4 La cluster analysis può essere applicata in congiunzione con altre tecniche statistiche multivariate. In particolare, la cluster analysis può essere applicata a partire dai risultati dell analisi fattoriale: 1. l analisi fattoriale consente, prima, di ridurre il numero delle variabili; 2. la cluster analysis consente di ridurre il numero delle osservazioni raggruppandole in cluster omogenei. Si noti che questa metodologia statistica consente di effettuare la segmentazione a posteriori. 4

5 ESEMPIO: vediamo un piccolo esempio relativo a 9 persone sulle quali sono stati rilevati il reddito (in migliaia di Euro) e l età. Unità Reddito Età Innanzitutto vediamo una rappresentazione grafica del nostro data set. 5

6 Età Reddito Da questo grafico vediamo che emerge la possibilità di partizionare le nove unità in tre gruppi. 6

7 Età Reddito 7

8 Nel fare questa affermazione siamo certamente stato aiutati dal colpo d occhio che ci fa cogliere quelle che sono le unità più vicine fra loro. In generale, però, le variabili usate per la cluster analysis sono più di due e, quindi, non si dispone di semplici rappresentazioni grafiche come quella appena vista. Diventa, quindi, determinante misurare la dissimilarità tra unità e tra gruppi. Per fare ciò occorre, innanzitutto definire i metodi di misurazione della similarità o della dissimilarità (distanza) fra unità e fra gruppi. 8

9 Misure di similarità e dissimilarità tra gruppi Innanzitutto vediamo le metriche per misurare la dissimilarità fra due unità. Consideriamo il caso di caratteri quantitativi. Una misura di distanza deve godere delle seguenti proprietà: 1. d ij 0 (non negatività) 2. d ii = 0 3. d ij = d ji (simmetria) 4. d ij d ir + d rj (disuguaglianza triangolare) Le misure più usate sono: - la distanza euclidea. 9

10 Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è 2 2 ( ) ( ) d 12 = = 178 = In generale la distanza euclidea tra due generiche unità i e j sui cui sono state rilevate p variabili è data da d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj dove il generico x pi indica il valore che la variabile p assume nell unità i. - La metrica di Manhattan (o della città a blocchi). Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è d = =

11 In generale questa distanza è data da d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj - la distanza euclidea ponderata. In generale la distanza euclidea ponderata tra due generiche unità i e j sui cui sono state rilevate p variabili è data da d = x x w + x x w + + x x w ij 1i 1j 1 2i 2 j 2 pi pj p L uso di questo tipo di distanza può essere utile se si vogliono standardizzare le variabili In tal caso basta porre w1 =, w 2 2 =,, w 2 p = 2 s s s per ottenere che 1 2 p 11

12 2 2 2 d x x 1 x x 1 = x x 1 ij 1i 1j 2 2i 2 j 2 s s pi pj s2 1 2 p ossia la distanza euclidea ponderata con l inverso delle varianze equivale alla distanza euclidea calcolata sulle variabili standardizzate xih xh zih =, i = 1,, n h = 1,, p s h 2 Nel nostro esempio, s reddito = e s età = Quindi la distanza euclidea tra l unità 1 e l unità 2 è d 12 = ( 12 25) + ( 23 20) = = Osservazione: bisogna prestare attenzione, quando si calcolano queste distanze, al caso in cui le unità di misura (o le scale) usate per 12

13 misurare o codificare le diverse variabili siano comparabili o meno. Per evitare il problema della comparabilità delle unità di misura si possono standardizzare le variabili prima di procedere al calcolo delle distanze. Consideriamo il caso di attributi dicotomici. Supponiamo di disporre di p misurazioni dicotomiche effettuate su n individui. Ad esempio si consideri la presenza (codificata con 1) o l assenza (codificata con 0) di p attributi su due unità generiche: Unità i Unità j I dati possono essere sintetizzati mediante la seguente tabella 13

14 Unità i 1 0 Unità j 1 a b 0 c d Dove a rappresenta il numero di attributi presenti in entrambe le unità; b rappresenta il numero di attributi presenti nell unità j ma non nell unità i; c rappresenta il numero di attributi presenti nell unità i ma non nell unità j; d rappresenta il numero di attributi assenti in entrambe le unità. Si ha a + b + c + d = p. Nel nostro esempio, la tabella risulta data da: Unità i 1 0 Unità j

15 A partire dalla tabella, si possono definire misure di similarità e di dissimilarità. Vediamone alcune: - Simple matching. La misura di similarità si basa sulla proporzione di attributi che sono presenti o assenti in entrambe le unità a + d cij = p La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = p - Coefficiente di similarità di Jaccard. La misura di similarità si basa sulla proporzione, sugli attributi che sono presenti in almeno una unità, degli attributi presenti in entrambe le unità 15

16 a cij = a + b + c La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = a + b + c 16

17 Consideriamo, ad es. la distanza euclidea al quadrato. In generale la distanza euclidea al quadrato tra due generiche unità i e j sui cui sono state rilevate p variabili è data da ( 1 1 ) ( 2 2 ) ( ) ij = i j + i j + + pi pj d x x x x x x dove il generico x pi indica il valore che la variabile p assume nell unità i. Le misure delle distanze tra tutte le possibili coppie delle n unità possono essere riassunte mediante la seguente matrice delle distanze che nel nostro esempio è data da:

18 Metodi di cluster analysis Una volta misurate le dissimilarità fra unità si deve procedere alla vera e propria creazione dei gruppi. I metodi possono essere raggruppati in due macrocategorie: Metodi gerarchici. Questi a loro volta si dividono in metodi: 1.agglomerativi (che in modo sequenziale, partono dallo stato in cui ogni unità costituisce un gruppo e per aggregazione successiva di una unità al gruppo più vicino, arrivano allo stato in cui tutte le unità appartengono allo stesso, e quindi, solo gruppo) 2.disaggregativi (che funziono sempre in modo sequenziale ma inverso rispetto ai metodi aggregativi). Metodi non gerarchici (o partitivi) mediante i quali i dati vengono partizionati in un numero di gruppi fissato a priori. 18

19 I metodi agglomerativi I metodi agglomerativi differiscono fra loro per il metodo utilizzato per calcolare la distanza tra gruppi o tra una unità e un gruppo. Un po di notazione. Indichiamo con: - d ij la distanza tra le unità i e j; - C ij il cluster ottenuto dal raggruppamento delle unità i e j; - C A e C B due cluster con rispettivamente n A e n B unità e con baricentri (o medie) x = 1 e 1 A n x i x = B n x i Ai C A B i C B 19

20 I metodi più utilizzati sono: Metodo del legame singolo (o metodo della distanza minima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più vicini Questo metodo tende ad identificare cluster di dimensione ampia. Inoltre può anche produrre cluster di forma allungata visto che per unire due gruppi basta che questi possiedano due unità (una per gruppo) molto vicine (le rimanenti possono anche essere molto lontane). 20

21 Metodo del legame completo (o metodo della distanza massima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più lontani Questo metodo tende a raggruppare insiemi di osservazioni vicine tra loro perché è basato sulle distanze massime tra gruppi. Quindi i gruppi risultanti hanno spesso forma sferica. Metodo del legame medio (o metodo della distanza media). La distanza tra due cluster C A e C B è data dalla media delle distanze tra tutte le possibili coppie di elementi (di cui uno in C A e uno in C B ). 21

22 Metodo di Ward. È un metodo gerarchico alternativo rispetto ai precedenti che sono basati sul calcolo di distanze tra gruppi (clusters). I gruppi vengono uniti sulla base della minimizzazione della perdita di informazione derivante dal raggruppamento di unità appartenenti a gruppi differenti. La perdita di informazione viene misurata come somma delle distanze di ogni elemento dalla media del cluster a cui viene assegnato (tale somma può essere chiamata varianza interna al cluster proposto). Viene, quindi, fusa la coppia di cluster per cui la varianza entro i cluster risultanti dalla fusione è minima. Questo metodo tende a produrre gruppi che hanno circa lo stesso numero di osservazioni. Metodo del centroide. La distanza tra i cluster è pari alla distanza tra i valori medi (detti centroidi) calcolati sulle unità appartenenti ai gruppi. Questo metodo fa sì che cluster grandi tendano ad attrarre al loro interno cluster piccoli. 22

23 ESEMPIO: consideriamo il nostro data set su reddito e età e procediamo al raggruppamento usando a scopo illustrativo il metodo del legame singolo. Di seguito si riporta la matrice delle distanze euclidee al quadrato In blu è stata evidenziata la distanza minima. 23

24 Vediamo che le unità più vicine sono la 1 e la 3 che quindi possono essere unite per formare un gruppo. Calcoliamo le nuove distanze usando sempre il metodo del legame singolo. C 1 = C 1 = Vediamo che la distanza minima si ha tra l unità 8 e l unità 9 che quindi possono essere unite in un gruppo. Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 24

25 C 1 = C 2 =8-9 C 1 = C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 1 e l unità 2 che quindi possono essere unite in un gruppo (diciamo C 3 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 25

26 C 3 =1,2, C 2 =8-9 C 3 =1,2, C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 2 e l unità 7 che quindi possono essere unite in un gruppo (diciamo C 4 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 26

27 C 3 =1,2, C 4 =7,8,9 C 3 =1,2, C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra l unità 4 e l unità 6 che quindi possono essere unite in un gruppo (diciamo C 5 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 5 =4,6 5 C 4 =7,8,9 C 3 =1,2, C 5 =4, C 4 =7,8,9 0 27

28 Vediamo che la distanza minima si ha tra C 5 e l unità 5 che quindi possono essere unite in un gruppo (diciamo C 6 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 6 =4,5,6 C 4 =7,8,9 C 3 =1,2, C 6 =4,5, C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra C 3 e C 6 che quindi possono essere unite in un gruppo (diciamo C 7 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3,4,5,6 C 4 =7,8,9 C 3 =1,2,3,4,5, C 4 =7,8,9 0 28

29 Abbiamo visto attraverso l esempio che i metodi gerarchici agglomerativi costituiscono una procedura iterativa che si articola nei seguenti passi: 1. all inizio ciascuna unità costituisce un gruppo distinto. La distanza tra i gruppi è quindi data dalla matrice delle distanze tra unità; 2. i due gruppi che possiedono distanza minima (secondo il metodo che si preferisce usare tra quelli sopra illustrati) vengono fusi. Si registra la distanza a cui avviene la fusione; 3. si calcola la distanza tra il nuovo cluster, sorto dalla fusione effettuata al punto 2., e i cluster già esistenti. Si aggiorna la matrice delle distanze che, così, avrà una riga e una colonna in meno (perché calcolata dopo la fusione di due gruppi); 4. vengono ripetuti i passi 2. e 3. finché non si giunge alla configurazione in cui tutte le unità sono in un gruppo solo (ciò avviene in n 1 iterazioni). 29

30 È possibile assegnare ad ogni gruppo appena formato un indice di aggregazione. Questo è dato dalla distanza fra le due classi appena aggregate. Il processo di aggregazione può essere poi visualizzato mediante un diagramma ad albero detto dendrogramma in cui le altezze sono proporzionali agli indici di aggregazione. Il dendrogramma, quindi, riporta sull asse verticale il livello di distanza (distance level) a cui avviene la fusione e sull asse orizzontale le unità organizzate secondo una struttura ad albero. Ad ogni livello di distanza corrisponde una partizione. Il dendrogramma consente anche di visualizzare quanto un gruppo è separato dagli altri gruppi. Il rapporto tra il livello di distanza a cui un gruppo si forma e il livello di distanza a cui questo gruppo si fonde con un altro gruppo indica quanto il cluster è delimitato e separato dai rimanenti. 30

31 Torniamo al nostro esempio e vediamo il dendrogramma che descrive l operazione di agglomerazione con metodo gerarchico agglomerativo del legame singolo e distanza euclidea al quadrato. Dendrogram Single Linkage; Squared Euclidean Distance 1224,00 Distance 816,00 408,00 0, Observations

32 Scelta del numero dei gruppi I metodi gerarchici aggregativi esplorano tutti i possibili diversi livelli di aggregazione. È compito del ricercatore, quindi, scegliere sulla base degli output quale possa essere la migliore partizione. A questo scopo il dendrogramma costituisce un ottimo supporto. Si può, infatti, tagliare il dendrogramma ad una certa altezza. Distance 1224,00 816,00 408,00 0,00 1 Dendrogram Single Linkage; Squared Euclidean Distance Observations Il punto di taglio può essere trovato cercando il punto in cui avviene il salto (in termini di asse verticale) più consistente. Accanto vediamo (rappresentato con un segmento blu) il taglio nel nostro esempio. 32

33 Per la scelta del numero ottimale di gruppi in cui suddividere le unità ci si può anche avvalere dell output della procedura di cluster analysis. In particolare, come vedremo nell esempio riportato nella pagina successiva, si possono calcolare degli opportuni indicatori che aiutano ad identificare il punto di salto. Ad esempio un indicatore è il livello di similarità che viene calcolato ad ogni passo della procedura iterativa. Il livello di similarità ad un determinato passo è dato da d ij 1, d dove d ij è la distanza tra le unità che a quel passo vengono fuse (ossia la distanza minima in quel passo) e d max è il valore massimo della distanza nella matrice iniziale delle distanze tra le unità. Il passo nel quale il valore del livello di similarità subisce un brusco cambiamento può essere un buon punto per tagliare il dendrogramma e, quindi, per scegliere il numero ottimale di gruppi. max 33

34 Cluster Analysis of Observations: reddito; età Squared Euclidean Distance, Single Linkage Amalgamation Steps Indice di aggregazione Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster Nota: si noti che Minitab consente di produrre un dendrogramma che rappresenta sull asse delle ordinate proprio il livello di similarità (espresso in termini percentuali). 34

35 I metodi non gerarchici I metodi non gerarchici, a differenza dei gerarchici, non producono una gerarchia di partizioni delle osservazioni ma producono una sola partizione. Ciò significa che occorre stabilire (o conoscere) a priori il numero di cluster in cui suddividere le osservazioni. Vediamo, in generale, i passi i cui si articolano i metodi non gerarchici. Supponiamo che i gruppi siano K: 1. sono determinati i centri iniziali dei K cluster. Questi centri o sono individuati dal ricercatore/analista oppure sono selezionati casualmente dal software (ossia sono K osservazioni scelte a caso) 2. le osservazioni sono assegnate ai cluster sulla base della loro distanza dal centro del cluster (ciascuna osservazione viene assegnata al cluster con il centro meno distante dall osservazione) 35

36 3. si calcolano i centri dei nuovi cluster risultanti dalla procedura di assegnazione al punto i passi 2. e 3. vengono ripetuti fintantoché nessuna osservazione può essere più riallocata oppure finché non viene verificata una regola di stop. Esistono diversi metodi non gerarchici. Questi differiscono nella determinazione del criterio di ottimalità della partizione. Vediamo il metodo più diffuso. 36

37 Il metodo delle K medie (K-means) Il metodo delle K-medie ricerca la partizione ottimale in K cluster che minimizza la devianza entro i cluster. In altre parole, l algoritmo opera sulla base della seguente funzione obiettivo: K ( c ) ( c ) ( c WSS = x ) 1i x1 + x2i x2 + + xpi xp within sum of squares c= 1 unità i nel cluster c dove: - x 1i indica, ad esempio, la modalità della variabile X 1 mostrata dall unità i appartenente al cluster c, c=1,...,k c - 1 x indica, ad esempio, il valore medio (o centroide) della variabile X 1 calcolato con riferimento alle sole osservazioni appartenenti al cluster c, c=1,...,k. 37

38 Se ne deduce che WSS rappresenta la somma delle devianze interne ai gruppi. L algoritmo delle K-medie si propone di trovare la partizione ottimale nel senso che minimizza la devianza WSS. Vediamo i passi dell algoritmo K-medie. 1. si specificano i K punti iniziali come centroidi scegliendo in maniera opportuna (se si hanno conoscenze a priori) o casuale (se non si hanno conoscenze a priori) alcune unità; 2. ciascuna unità viene assegnata al cluster il cui centroide si trova alla distanza più piccola; 3. vengono aggiornati i valori dei centroidi per ciascuno del K gruppi; 4. si procede iterativamente a spostamenti successivi fino a raggiungere una configurazione stabile (ossia finché non si può più riallocare nessuna unità). 38

39 L algoritmo è abbastanza veloce e stabile nel senso che, partendo da centroidi iniziali diversi, tende a giungere alla stessa configurazione finale. Quando la popolazione analizzata è piuttosto omogenea e non ammette partizioni, i risultati possono variare molto. Quindi, se non si hanno informazioni a priori sufficientemente affidabili, è consigliabile applicare l algoritmo con valori iniziali diversi e controllare la stabilità della soluzione ottenuta. Un nodo cruciale è la scelta del numero di cluster. Un indice che può essere utilizzato è quello di Calinski e Harabsz: B ( k 1) CHk = WSS ( n k ) dove B rappresenta la devianza tra i gruppi che può essere calcolata come differenza tra la devianza totale e la devianza within. Si sceglie la partizione tale che CH k è massima. 39

40 Metodi gerarchici vs Metodi non gerarchici Confrontiamo alcune caratteristiche dei due metodi di cluster analysis. I metodi gerarchici: non richiedono di conoscere/scegliere a priori il numero di cluster possono essere molto lenti; allora è preferibile usarli su piccoli dataset ad ogni passo richiedono il calcolo dell intera matrice delle distanze I metodi non gerarchici: richiedono di conoscere/scegliere a priori il numero di cluster possono richiedere la specificazione dei centroidi iniziali sono veloci, generalmente affidabili e possono essere usati anche per grandi dataset ad ogni passo richiedono il calcolo solo delle distanze delle unità dai centroidi 40