Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Transcript

1 La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis è applicata a matrici di dati non strutturate, cioè le relazioni interne tra gli oggetti non sono note a priori. Se i gruppi di oggetti trovati dalla cluster analysis presentano delle differenze statisticamente significative, allora i gruppi trovati possono essere considerati classi di oggetti.

2 NOTA BENE I metodi di cluster non devono essere confusi con i metodi di classificazione! Metodi di cluster: dati non strutturati Metodi di classificazione: dati strutturati, gli oggetti sono stati campionati da popolazioni diverse e quindi appartengono a classi distinte definite a priori. Metodi di cluster: scopo è trovare raggruppamenti significativi degli oggetti. Metodi di classificazione: scopo è trovare modelli capaci di assegnare correttamente ciascun oggetto alla classe di appartenenza.

3 I metodi di cluster analysis utilizzano le misure di dissimilarità o similarità tra gli oggetti. Punto di partenza : matrice di dissimilarità (similarità) Nota: tutti i metodi che usano le misure di distanza per valutare la dissimilarità non sono invarianti alle trasformazioni delle variabili, quali le scalature.

4 data (n, p) distance distance matrix (n, n) similarity similarity matrix (n, n) clustering algorithm data + class variable interpretation data + clustering variable

5 I clusters vengono definiti in termini di: - separazione - compattezza - forma singleton

6 centroide centrotipo X2

7 Metodi di clustering - hierarchical methods - agglomerative methods - weighted average linkage - unweighted average linkage - divisive methods - complete linkage... - single linkage - centroid linkage - median linkage - Ward method - McNaughton method - Cavalli-Sforza method - non-hierarchical methods - K-means method - Jarvis-Patrick method - fuzzy methods - graph-theoretical methods...

8 Procedure preliminari 1. selezione del metodo di clustering 2. selezione del tipo di scalatura delle variabili 3. selezione della misura di dissimilarità 4. calcolo della dissimilarità tra tutte le coppie di oggetti 5. calcolo della corrispondente similarità

9 Metodi gerarchici agglomerativi Al passo iniziale, si hanno n clusters ciascuno contenente un singolo oggetto. Algoritmo iterativo: 1. si cercano i due clusters più simili; 2. i due clusters più simili vengono uniti generando un nuovo cluster; 3. si calcola la similarità (o dissimilarità) del nuovo cluster con ciascuno dei clusters esistenti. Questo comporta la cancellazione delle 2 righe e 2 colonne della matrice di similarità (dissimilarità) corrispondenti ai due clusters uniti e l aggiunta di 1 riga e 1 colonna corrispondenti al nuovo cluster.

10 L intero processo di clustering può essere riassunto mediante un grafico a forma di albero : DENDROGRAMMA coefficiente di clustering A B C D E

11

12 Regole per calcolare la dissimilarità tra due cluster n k = numero di oggetti del cluster k n f = numero di oggetti del cluster f D kf = dissimilarità tra i clusters k e f Single-linkage linkage : D kf è la più piccola tra le n k n f dissimilarità tra ogni oggetto di k e ogni oggetto di f D kf

13 Regole per calcolare la dissimilarità tra due cluster Complete-linkage linkage : D kf è la più grande tra le n k n f dissimilarità tra ogni oggetto di k e ogni oggetto di f D kf

14 Regole per calcolare la dissimilarità tra due cluster Average-linkage : D kf è la media delle n k n f dissimilarità tra ogni oggetto di k e ogni oggetto di f Centroid-linkage : D kf è la distanza Euclidea al quadrato tra i centroidi dei clusters k e f D kf

15 Regole per calcolare la dissimilarità tra due cluster Nota bene : ogni metodo produce una diversa ripartizione degli oggetti.. E importante scegliere il metodo di clustering prima di effettuare l analisi.

16 Regole per calcolare la dissimilarità tra due cluster Caratteristiche dei metodi agglomerativi : - complete, average e centroid-linkage producono clusters sferici costituiti da oggetti molto simili. - single-linkage linkage produce clusters allungati in cui si possono avere anche coppie di oggetti diversi (concatenamento).

17 Regole per calcolare la dissimilarità tra due cluster Caratteristiche dei metodi agglomerativi : - con il single-linkage linkage un oggetto si unisce ad un gruppo se è simile anche ad un solo oggetto del gruppo. - con il complete-linkage linkage un oggetto si unisce ad un gruppo solo se presenta una certa similarità con tutti gli oggetti del gruppo. Il single-linkage linkage è il metodo più appropriato per individuare outliers

18 Esempio Matrice delle dissimilarità oggetti

19 STEP 1 : Gli oggetti 1 e 3 sono i più simili e quindi vengono uniti formando così il primo cluster al livello di dissimilarità uguale a 1. Utilizzando il single-linkage: linkage: D = min d, d = min 44, = 4 213, D = min d, d = min 44, = 4 413, D = min d, d = min 5, 3 = 3 513, b g b g b g b g b g b g

20 STEP 1 : Matrice delle dissimilarità aggiornata con il single-linkage: linkage: oggetti (1+3) (1+3)

21 STEP 2 : Gli oggetti 2 e 4 sono i più simili e quindi vengono uniti formando così il secondo cluster al livello di dissimilarità uguale a 2. Utilizzando il single-linkage: linkage: D = min d, d = min 44, = 4 (,), (,) 13 2 (,) 13 4 D = min d, d = min 54, = 4 524, d h b g b g b g

22 STEP 2 : Matrice delle dissimilarità aggiornata con il single-linkage: linkage: oggetti (1+3) (2+4) 5 (1+3) 0 (2+4)

23 STEP 3 : L oggetto 5 e il cluster (1+3) sono i più simili e quindi vengono uniti formando così il terzo cluster al livello di dissimilarità uguale a 3. Utilizzando il single-linkage: linkage: d h b g D = min d 24 13, d 24 5 = min 44, = 4 (, ),(,) (, )(,) (, ) oggetti (1+3+5) (2+4) (1+3+5) 0 (2+4) 4 0

24 STEP 4 : L unica possibilità rimasta è l unione finale dei due clusters (1+3+5) e (2+4) ad un livello di dissimilarità uguale a 4. coefficiente di clustering

25 Esempio: : Wines

26 Esempio: : Wines

27 Esempio: : Wines

28

29

30 Metodi non-gerarchici I metodi di cluster non-gerarchico si differenziano molto tra loro, essendo basati su approcci matematici differenti. Alcuni di loro si chiamano tecniche di ricollocamento, poichè dopo una partizione iniziale degli oggetti, questi vengono spostati da un cluster all altro finchè un criterio di stop è stato soddisfatto. Il metodo K-means è il più noto.

31 Metodo K-means Proposto da MacQueen nel 1967, è un algoritmo di ricollocamento basato sul confronto delle distanze di ogni oggetto dai centroidi dei clusters. Occorre definire a priori il numero G di clusters. centroide del g-esimo cluster : n c x, x, K, x g = g1 g2 gp s

32 Algoritmo del metodo K-means A0. selezione della misura di dissimilarità A1. selezione del numero G di clusters B1. partizione iniziale random degli oggetti in G clusters C1. calcolo dei centroidi dei G clusters C2. calcolo delle distanze tra ciascun oggetto e ciascun centroide C3. collocamento di ogni oggetto nel cluster del centroide più vicino C4. se almeno un oggetto è stato ricollocato, ritorna a C1 D1. stop

33 metodo K-means

34 metodo K-means Normalmente,, i centroidi dei clusters vengono ricalcolati dopo il ricollocamento di tutti gli oggetti. Una variante di questo metodo si basa sul calcolo dei centroidi dei clusters dopo il ricollocamento di ogni singolo oggetto. La partizione finale degli oggetti è influenzata da molti fattori, tra cui il numero scelto di clusters.

35 Metodo di Jarvis-Patrick E un metodo di clustering efficiente basato sulla matrice dei vicini derivata dalla matrice delle dissimilarità. Steps preliminari 1. selezione della misura di dissimilarità 2. definizione della dimensione L della matrice dei vicini 3. definizione del numero k di vicini comuni 4. calcolo della matrice delle dissimilarità 5. calcolo della matrice dei vicini

36 Metodo Jarvis-Patrick Matrice dei vicini (n, L) oggetti 1 v 2 v 3 v L v n

37 Metodo Jarvis-Patrick Algoritmo : Due oggetti s e t vengono collocati nel medesimo cluster se: 1. l oggetto s è nella lista dei vicini dell oggetto t 2. l oggetto t è nella lista dei vicini dell oggetto s 3. i due oggetti hanno k vicini comuni.

38 Metodo Jarvis-Patrick Valori ottimali dei parametri L e k: L = n / 3 k = n / 4 Aumentando i valori di L e k, il numero di clusters ottenuti aumenta, poichè diventa più severa la condizione richiesta per l unione degli oggetti. Nota bene: il numero dei clusters è un risultato del metodo e non deve essere definito a priori dall utente.

39 Esempio : Cheese 134 campioni di formaggio (Parmigiano Reggiano) descritti dalle concentrazioni analitiche dei 21 amminoacidi. Le variabili sono state autoscalate prima dell analisi.

40 Esempio : Cheese Metodo gerarchico complete linkage (distanza( Euclidea) Linkage Distance

41 Esempio : Cheese Metodo gerarchico complete linkage (distanza( Euclidea) PC2 (E.V.% 10.1) PC1 (E.V.% 68.3)

42 Esempio : Cheese Metodo gerarchico single linkage (distanza( Euclidea) 6 5 Linkage Distance

43 Esempio : Cheese Metodo gerarchico single linkage (distanza( Euclidea) PC2 (E.V.% 10.1) PC1 (E.V.% 68.3)

44 Esempio : Cheese Metodo K-means (distanza( Euclidea) 2.5 PC2 (E.V.% 10.1) PC1 (E.V.% 68.3)

45 Esempio : Cheese Metodo di Jarvis-Patrick (distanza( Euclidea,, L=50, k=40) PC2 (E.V.% 10.1) PC1 (E.V.% 68.3)