Metodologie per Sistemi Intelligenti. Clustering. Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

Transcript

1 Metodologie per Sistemi Intelligenti Clustering Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

2 Cos è il clustering? Il processo di raggruppamento di un insieme di oggetti fisici o astratti in classi di oggetti simili (Han 2001). Un cluster è una collezione di oggetti simili tra loro che sono dissimili rispetto agli oggetti degli altri cluster.

3 Definizione Dati un insieme di esempi, descritti da un insieme di attributi, e una misura di similarità trovare un insieme di cluster tali che: Gli esempi appartenenti allo stesso cluster risultino simili Gli esempi appartenenti a cluster differenti dissimili La misura di similarità è il cuore del problema e il cuore della soluzione al problema Distanza Euclidea se gli attributi sono tutti numerici e se ha senso Nella maggior parte dei casi, è specifica al problema

4 A cosa si applica? In biologia può essere utilizzato per derivare tassonomie di animali e piante. Nel marketing può essere impiegato per derivare e caratterizzare gruppi di consumatori....per derivare aree geografiche simili. Nell analisi dei dati viene impiegato per studiare come i dati si distribuiscono nello spazio.

5 Clustering (1) Cerchiamo raggruppamenti interessanti Alla base c è l ipotesi che si possa definire una distanza o misura di similarità La distanza deve essere significativa per il dominio L ipotesi implicita è più i dati sono vicini, più sono simili Lo scopo generale è trovare dei cluster tali che Le distanze intracluster siano minime Le distanze intercluster siano massime

6 Clustering (2) Distance based clustering Un gruppo di oggetti appartengono allo stesso cluster se sono vicini rispetto ad una determinata distanza. Conceptual Clustering Gli oggetti appartengono ad un cluster se questo definisce un concetto comune ai diversi oggetti.

7 Applicazioni di Clustering Pattern Recognition Spatial Data Analysis Creare mappe tematiche negli strumenti GIS per individuare raggruppamenti simili nello spazio Image Processing Economic Science (especially market research) WWW Classificazione dei documenti Analisi dei dati di Weblog per scoprire gruppi caratterizzati da comuni profili di accesso e navigazione

8 Esempi di Applicazioni (1) Marketing Aiuta i marketing managers a scoprire segmenti distinti all interno della customer base, e quindi ad utilizzare questa conoscenza per lo sviluppo di campagne mirate di marketing Utilizzo del Territorio Identificare aree territoriali di simile utilizzo mediante l analisi di un database di osservazioni sul territorio Assicurazioni Partizionare il portafoglio clienti auto in segmenti a supporto delle attività di target marketing

9 Esempi di Applicazioni (2) Pianificazione urbana Identificare gruppi di edifici per tipologia, valore e localizzazione geografica Studi sismici Formare cluster di epicentri di eventi sismici e verificare che si trovino lungo le faglie dei continenti Astronomia Analisi delle immagini del cielo Analisi delle esplosioni di raggi gamma

10 Requisiti Scalabilità Possibilità di trattare molteplici tipi di attributi Minimo numero possibile di parametri Possibilità di trattare dati affetti da rumore Indipendenza dall ordine degli esempi Possibilità di trattare esempi con molti attributi

11 Esempio (1)

12 Esempio (2)

13 Quali sono i problemi tipici? L efficacia dipende dalla definizione di distanza Se non esiste una misura di distanza ovvia, bisogna inventarla La bontà del risultato dipende completamente dall adeguatezza della misura rispetto al problema L interpretazione del risultato dipende dalla distanza. I risultati in molti casi possono essere arbitrari come pure la loro interpretazione!

14 Esempio Abbiamo dei dati relativi agli accessi ad un sito Conosciamo gli IP degli utenti che accedono al sito Provare a definire una distanza fra indirizzi IP

15 Tassonomie Tassonomia degli Algoritmi Gerarchici viene generata una gerarchia di possibili suddivisioni Partition-Based viene generata una sola partizione Tassonomia delle tecniche Bottom-up Top-down

16 Algoritmi di Clustering Partition-based clustering Dato k, partiziona gli esempi in k cluster di almeno un elemento; ogni esempio può appartenere solo ad un elemento. Hierarchical clustering Scompone l insieme degli esempi in una gerarchia di partizioni di diversa complessità. Density-based clustering Gli esempi vengono suddivisi in cluster via via sempre più numerosi fino a quando la densità di ogni cluster rimane accettabile. Grid-based e Model-based clustering

17 Algoritmi Partition-Based Scopo: trovare una suddivisione dei dati in k cluster (k fissato all inizio) Strategie Locali formare i cluster sfruttando la struttura locale dei dati Strategie Globali ogni cluster viene rappresentato da un prototipo, ogni esempio viene assegnato al cluster il cui prototipo è maggiormente simile

18 Algoritmi Gerarchici Si parte Da un unico cluster contenente tutti gli esempi (top-down) Da un cluster per ogni esempio (bottom-up) Ad ogni passo, Si divide un cluster in due (top-down) Si raggruppano due cluster (bottom-up) In questo modo si forma una gerarchia di suddivisioni, fusioni di cluster La gerarchia viene rappresentata con un dendrogramma

19 Nearest Neighbor Clustering Input Una soglia t sulla distanza Un insieme di n esempi x 1...x n Una misura di distanza Output k cluster in cui la distanza fra elementi appartenenti a cluster distinti è almeno t

20 Funzionamento del NN INPUT t e gli n esempi {x 1...x n } OUTPUT k cluster C 1 = {x 1 }; i=1; k=1; do { i=i+1; x = elemento più vicino a x i tra quelli assegnati ai cluster; // assumiamo x appartenga al cluster C m ; if (distanza(x i,x )>t) { k = k + 1; C k = {x i }; } else { C m = C m +{x i }; } } while (i!=n);

21 NN per Classificazione E possibile utilizzare il NN come modello di classificazione Per ogni nuovo caso da classificare occorre: Calcolare la similitudine di quest ultimo rispetto ai cluster individuati dal modello non supervisionato Attribuire al nuovo caso la stessa classificazione del cluster cui risulta più simile Aggiungere il nuovo caso classificato alla tabella dei casi noti

22 Esempio Nearest Neighbor (1.1) 4 3? 2? 1? Programma televisivo A Programma televisivo B Programma televisivo C Programma televisivo D

23 Esempio Nearest Neighbor (1.2) 4 3 W 2 X 1 Z Programma televisivo A Programma televisivo B Programma televisivo C Programma televisivo D

24 Esempio Nearest Neighbor (2.1) Codice Paziente Mal di Gola Febbre Ghiandole Ingrossate Congestione Mal di Testa 1 Si Si Si Si Si Diagnosi Affezione da Streptococco 2 No No No Si Si Allergia 3 Si Si No Si No Raffreddore 4 Si No Si No No Affezione da Streptococco 5 No Si No Si No Raffreddore 6 No No No Si No Allergia 7 No No Si No No Affezione da Streptococco 8 Si No No Si Si Allergia 9 No Si No Si Si Raffreddore 10 Si Si No Si Si Raffreddore

25 Esempio Nearest Neighbor (2.2) Nuovo paziente da classificare Codice Paziente Mal di Gola Febbre Ghiandole Ingrossate Congestione Mal di Testa 14 Si No No No No Similitudine in base al conteggio delle corrispondenze attributo-valore Corrispondenze Pazienti 1, 9 2, 5, 10 3, 6, 7, 8 4 Affezione da Streptococco

26 Considerazioni sul NN (1) Vantaggi Per la sua efficacia è necessario un pretrattamento dei dati per la determinazione degli attributi rilevanti Ridotti tempi di calcolo confrontando i casi da classificare con un sottoinsieme di casi tipici tratti da ogni classe rappresentata nei dati La descrizione generale di ciascuna classe può essere ottenuta esaminando gli insiemi dei casi più tipici delle classi

27 Considerazioni sul NN (2) Svantaggi Tempi di calcolo elevati nel caso di dataset di grandi dimensioni Non effettua distinzioni tra attributi rilevanti e irrilevanti Difficoltà nel capire se gli attributi scelti siano in grado di differenziare le classi contenute nei dati

28 k-means Dati Un numero k Un insieme di n esempi Una misura di distanza Un criterio di stop (minimo errore quadratico) Il k-means partiziona gli n esempi in k cluster La similarità fra esempi appartenenti allo stesso cluster deve essere alta La similarità fra oggetti appartenenti a cluster diversi deve essere bassa

29 Funzionamento del k-means? INPUT OUTPUT k e gli n esempi k cluster che minimizzano l errore quadratico Dato k e n esempi Seleziona k esempi tra n come centroidi iniziali Repeat assegna ogni esempio al cluster corrispondente al centroide a cui l esempio e più vicino. calcola il valore medio degli elementi del cluster ovvero calcola i nuovi centroidi. Until criterio soddisfatto

30 Come funziona il k-means? Come criterio di stop viene solitamente utilizzato l errore quadratico: Dove m i rappresenta il centroide del cluster C i

31 Esempio k-means

32 Applicazione k-means (1) Valori di input Osservazione X Y

33 Diagramma dei dati di input f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0

34 Assegnazione del valore k Hp due cluster distinti: k=2 Hp centri dei due cluster: Osservazione 1 Osservazione 2 f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0

35 Prima iterazione algoritmo C 1 =(1.0, 1.5), C 2 =(2.0, 1.5) Centroide 1 Distanze Valore (C 1-1) 0.00 (C 1-2) 3.00 (C 1-3) 1.00 (C 1-4) 2.24 (C 1-5) 2.24 (C 1-6) 6.02 Centroide 2 Distanze Valore (C 2-1) 1.00 (C 2-2) 3.16 (C 2-3) 0.00 (C 2-4) 2.00 (C 2-5) 1.41 (C 2-6) 5.41

36 Risultati prima iterazione Cluster ottenuti C 1 {1, 2} C 2 {3, 4, 5, 6} Calcolo nuovi centroidi Cluster C 1 x=( )/2=1.0 y=( )/2=3.0 Cluster C 2 x=( )/4=3.0 y=( )/4=3.3

37 Seconda iterazione algoritmo C 1 =(1.0, 3.0), C 2 =(3.0, 3.375) Centroide 1 Distanze Valore (C 1-1) 1.50 (C 1-2) 1.50 (C 1-3) 1.80 (C 1-4) 1.12 (C 1-5) 2.06 (C 1-6) 5.00 Centroide 2 Distanze Valore (C 2-1) 2.74 (C 2-2) 2.29 (C 2-3) (C 2-4) 1.01 (C 2-5) (C 2-6) 3.30

38 Risultati seconda iterazione Cluster ottenuti C 1 (1, 2, 3) C 2 (4, 5, 6) Calcolo nuovi centroidi Cluster C 1 x=( )/3=1.3 y=( )/3=2.5 Cluster C 2 x=( )/3=3.3 y=( )/3=4.0

39 Terza iterazione algoritmo C 1 =(1.3, 2.5) C 2 =(3.3, 4.0) Centroide 1 Distanze Valore (C 1-1) (C 1-2) (C 1-3) (C 1-4) (C 1-5) (C 1-6) Centroide 2 Distanze Valore (C 2-1) (C 2-2) (C 2-3) (C 2-4) (C 2-5) (C 2-6)

40 Cluster risultanti Risultato Centri dei Punti dei Cluster Cluster (2.6, 4.6) 2, 4, 6 (2.0, 1.8) 1, 3, 5 (1.5, 1.5) 1, 3 (2.7, 4.1) 2, 4, 5, 6 (1.8, 2.7) 1, 2, 3, 4, 5 (5,0, 6.0) 6 Errore Quadratico 1 14,5 2 15,9 3 9,6

41 Visualizzazione risultato 2 f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0

42 Considerazioni sul k-means (1) Vantaggi Di immediata comprensione e implementazione Relativamente efficiente: O(tkn), dove n è # records, k è # clusters, e t è # di iterazioni. Normalmente, k, t << n Spesso si arresta in un ottimo locale. L ottimo globale può essere determinato utilizzando altre tecniche di analisi come gli algoritmi genetici

43 Considerazioni sul k-means (2) Svantaggi Applicabile solo quando la media è definita, quindi non nel caso di attributi categorici Occorre specificare a priori il numero dei cluster k Difficoltà nel trattare dati con rumore e outliers Non adatto a scoprire clusters con forme geometriche non convesse I risultati sono migliori quando i cluster presenti nei dati hanno la stessa dimensione Necessità di interpretare i risultati ottenuti

44 Clustering Gerarchico I cluster non vengono creati in un unico passo Si inizia con una partizione in cui: ogni elemento è un potenziale cluster; oppure tutti gli elementi formano un unico cluster. A partire da questa situazione iniziale è possibile creare agglomerati dai singoli cluster per formare via via cluster più grandi dividere i cluster più grandi per formare cluster via via più piccoli

45 Clustering Gerarchico Supponiamo di avere cinque elementi di cui vogliamo trovare gli agglomerati interessanti. Primo Passo: Calcolo della Matrice delle distanze D = Dij è la distanza fra l elemento i e l elemento j

46 Clustering Gerarchico Secondo Passo Si trovano i due elementi più vicini e si raggruppano in un singolo cluster. In questo caso i primi due elementi sono più vicini. Terzo Passo: ricalcolo della matrice delle distanze. Qual è la distanza fra due cluster?

47 Qual è la distanza fra due cluster?

48 Single Linkage Clustering d (12)3 = min[d 13,d 23 ] = d 23 = 5.0 d (12)4 = min[d 14,d 24 ] = d 24 = 9.0 d (12)5 = min[d 15,d 25 ] = d 25 = 8.0

49 Clustering Gerarchico La nuova matrice D 2 è: D 2 = Il processo continua fino a trovare un solo cluster

50 Clustering Gerarchico Per visualizzare il risulato di un operazione di clustering gerarchico usiamo un dendrogramma.

51 Complete Linkage Clustering d (12)3 = max[d 13,d 23 ] = d 23 = 6. d (12)4 = max[d 14,d 24 ] = d 24 = 10.0 d (12)5 = max[d 15,d 25 ] = d 25 = 9.0

52 Complete Linkage Clustering

53 Average Linkage Clustering d AB = (d 13 + d 14 + d 15 + d 23 + d 24 + d 25 )/6

54 Clustering Gerarchico

55 AGNES (Agglomerative Nesting) Introdotto da Kaufmann e Rousseeuw (1990) Implementato in tool di analisi statistica (es. Splus) Utilizza il metodo del Single-Linkage e la matrice di dissimilarità Crea i cluster unendo i nodi con il più basso valore di dissimilarità I cluster sono creati secondo una modalità di tipo bottom-up Eventualmente tutti i nodi sono raggruppati in un unico cluster

56 Esempio AGNES

57 DIANA (Divisive Analysis) Introdotto da Kaufmann e Rousseeuw (1990) Implementato in tool di analisi statistica (es. Splus) Formazione dei cluster in ordine inverso rispetto all algoritmo AGNES Eventualmente ogni nodo forma un singolo cluster

58 Esempio DIANA

59 Considerazioni Non necessitano della definizione a priori del numero di gruppi Onerosi dal punto di vista computazionale Scarsamente efficienti con grandi moli di dati Fortemente influenzati dalla presenza di outliers

60 Analisi Fattoriale E una tecnica statistica per lo studio dell interdipendenza tra variabili di tipo quantitativo Lo scopo è condensare l informazione contenuta in un numero elevato di variabili in un numero esiguo di nuove variabili (fattori latenti) I fattori latenti sono ottenuti come combinazione lineare delle variabili di partenza con una perdita minima di informazione

61 Esempio (1) Matrice di Input Cliente Premio Campione Omaggio ANALISI FATTORIALE Raccolta Punti Concorso Riduzione di Prezzo 3 * 2 Quantità Prodotto Aggiuntiva

62 Esempio (2) Tabella di Output RISULTATI Componenti Variabili Interpretazione Premio, - Campione Omaggio, - Raccolta Punti -Concorso - Riduzione di Prezzo -3 * 2 - Quantità Aggiuntiva di Prodotto Esprime un interesse per il Regalo Certo Legata esclusivamente al concorso, esprime una preferenza per il Regalo Incerto Indica l esistenza di un fattore che si può denominare economia di spesa

63 Analisi delle Componenti Principali (1) Criterio più comune di estrazione dei fattori da un insieme di dati Consiste nella trasformazione del set di dati originale in un nuovo insieme di variabili composite definite componenti principali

64 Analisi delle Componenti Principali (2) Le componenti principali sono: una combinazione lineare del set iniziale di dati non correlate fra di loro ordinate in maniera decrescente rispetto alla variabilità spiegata del set di dati di input Le varianze delle componenti principali, indicate con λ i, sono chiamate autovalori Gli autovettori identificano la direzione di ogni componente principale

65 Esempio PCA (1) Grafico del set di dati iniziale

66 Esempio PCA (2) Calcolo delle direzioni principali (autovettori)

67 Esempio PCA (3) Proiezione del set di dati secondo le direzioni principali

68 Principal Direction Divisive Partitioning Algoritmo gerarchico divisivo Opera su valori numerici (anche con valori missing) Lo split non è basato su alcuna misura di distanza o similarità ma sul calcolo delle Componenti Principali

69 PDDP Inizia con un cluster iniziale contenente l intero set di dati Divide inizialmente il cluster iniziale in due cluster figli Divide ricorsivamente i due cluster figli in ulteriori due cluster L algoritmo termina quando un criterio di stop è soddisfatto Le partizioni generate sono visualizzate in un albero binario ( PDDP tree )

70 PDDP tree

71 Esempio: clustering di documenti Abbiamo un insieme di documenti Ogni documento è caratterizzato da un vettore di frequenze, che ci dice quanto una parola compare in un documento Vogliamo applicare il clustering per ottenere raggruppamenti interessanti di documenti

72 Set di Dati di Ingresso Ogni esempio è rappresentato da un vettore d n-dimensionale d documento di testo La componente d i rappresenta la frequenza relativa della componente i-esima d i frequenza relativa della i-esima parola del documento Ogni esempio è standardizzato al fine di avere uno stesso ordine di grandezza d =1

73 Matrice di Frequenza I vettori sono raggruppati nella Matrice di Frequenza M=(d 1, d 2,, d n, ) Quake Risk High Closes For Snow Rose Bowl Result Big 10 Sanctions Berkeley Stantofrd Minnesota Wisconsin Housing Crunch Ucla Caltech

74 Processo di Split (1) A partire dalla matrice M si calcolano le Direzioni Principali Lo split avviene in base ai valori ottenuti dalla proiezione dei vettori d sulle Direzioni Principali Il processo si ripete sull intero set di dati

75 Processo di Split (2)

76 Funzionamento del PDDP? INPUTmatrice M (n m) contenente gli n esempi e un numero desiderato di cluster pari a c max OUTPUT un albero binario con c max nodi foglie formanti una partizione dell intero set di dati Inizializzazione dell albero binario con un singolo nodo radice (contenente tutto il set di dati) Repeat for c=2, 3,, c max seleziona il nodo con il più alto valore di dissimilarità calcolo del centroide e della direzione principale proiezione degli esempi del nodo secondo la direzione principale split degli esempi nel nodo di sinistra o di destra dell albero a seconda che il segno della proiezione sia positivo o negativo (se coincidente con il centroide lo split dell esempio è per convenzione a sinistra) Until sono ottenuti c max cluster

77 Considerazioni Necessita della definizione a priori del numero di gruppi Veloce, Scalabile, Efficiente con grandi moli di dati Riducendo la dimensionalità del set di dati iniziale risulta poco sensibile agli outliers

78 Metodologie per Sistemi Intelligenti Clustering Metodologia di Analisi Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

79 Fasi della Cluster Analysis Scelta Scelta delle delle VARIABILI VARIABILI Eventuale Eventuale riduzione riduzione in in Componenti Principali Principali Selezione Selezione della della Misura Misura di di Prossimità Prossimità tra tra le le variabili variabili Selezione Selezione dell Algoritmo di di Classificazione Identificazione del del numero numero dei dei gruppi gruppi entro entro i i quali quali ripartire ripartire le le entità entità Valutazione della della soluzione soluzione ottenuta ottenuta Eventuale Eventuale riciclo riciclo del del processo processo di di analisi analisi Analisi Analisi della della soluzione soluzione più più appropriata

80 Scelta delle Variabili Data la matrice di dati relativa ad n osservazioni e p variabili x x i1... x n x 1f... x if... x nf x 1p... x ip... x np occorre decidere quali variabili inserire e le opportune trasformazioni da effettuare (standardizzazione, analisi fattoriale)

81 Selezione della Misura di Prossimità Indici di Similarità forniscono informazioni preliminari indispensabili per poter individuare gruppi di unità omogenee sono definiti come funzione dei vettori riga della matrice di dati IP ij =f(x i, x j ) i, j=1,2,,n x i, x j vettori riga Differiscono a seconda che i dati considerati siano quantitativi, categorici, binari o misti

82 Tipi di dati nel clustering Scala per Intervallo Binarie Nominali, Ordinali, Scala per Rapporto Miste

83 Scala per Intervallo Standardizzazione dei dati Calcolare la deviazione media assoluta: s f where = 1( n x m + x m x m 1 f f 2 f f nf f 1 n m = (x + x f 1 f 2 f Calcolare il valore standardizzato (z-score) z if = x if m s La deviazione media assoluta è più robusta della deviazione standard f f x nf ). )

84 Indici di Similarità (1) Le distanze sono utilizzate per misurare il grado di similarità e dissimilarità tra coppie di dati La distanza tra due vettori riga x, y gode dele seguenti proprietà d(x,y) 0 non negatività d(x,x) = 0 identità d(x,y) = d(y,x) simmetria d(x,y) d(x,k) + d(k,y) disuguaglianza triangolare

85 Indici di Similarità (2) Per raggruppare le diverse unità statistiche si calcola la distanza tra tutte le coppie di dati presenti nella matrice dei dati L insieme di tali distanze definisce la matrice delle distanze 0 d(2,1) d(3,1 ) : d ( n,1) 0 d (3,2) : d ( n,2) 0 :

86 Misure di Distanza (1) Distanza Euclidea dove i = (x i1, x i2,, x ip ) e j = (x j1, x j2,, x jp ) sono due vettori riga p-dimensionali con i, j=1,2,,n Distanza Euclidea Quadratica )... ( ), ( p p j x i x j x i x j x i x j i d = )... ( ), ( p p j x i x j x i x j x i x j i d =

87 Misure di Distanza (2) Esempio della distanza Euclidea su un sistema cartesiano di due generiche entità i,j i (x i1, y i1 ) Distanza euclidea b a J (x j2, y j2 )

88 Misure di Distanza (3) Distanza di Manhattan... ), ( p p j x i x j x i x j x i x j i d = b a i (x i1, y i1 ) J (x j2, y j2 ) Distanza di Manhattan

89 Misure di Distanza (4) Distanza di Lagrange-Tchebychev d( i, j) = Max p ( x i x j, x i x j..., x i x j p p, ) i (x i1, y i1 ) Distanza di Lagrange b a J (x j2, y j2 )

90 Misure di Distanza (5) Distanza di Minkowski dove q è un intero positivo q q p p q q j x i x j x i x j x i x j i d )... ( ), ( =

91 Considerazioni (1) Distanza Euclidea: Invariante rispetto a traslazioni o rotazioni degli assi Distanza di Manhattan: Particolarmente indicata per variabili su scala ordinale Non invariante rispetto a traslazioni o rotazioni degli assi Pone meno enfasi sulle variabili con distanze maggiori non elevando al quadrato le differenze

92 Considerazioni (2) Distanza di Minkowski: E la generalizzazione delle altre distanze: q=1 Manhattan q=2 Euclidea q= Lagrange-Tchebychev Standardizzazione: Necessaria per eliminare distorsioni nel caso di fenomeni con unità di misura e ordini di grandezza diversi

93 Binary Variables (1) Rappresentati con una tabella di contingenza Object j 1 0 sum 1 a b a+ b Object i 0 c d c+ d sum a+ c b+ d p

94 Binary Variables (2) Simple matching (invariante se la variabile binaria è simmetrica) Coefficiente di Jaccard (non-invariante se la variabile binaria è asimmetrica): d c b a c b j i d = ), ( c b a c b j i d = ), (

95 Esempio Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N Mary F Y N P N P N Jim M Y P N N N N N gender è un attributo simmetrico i rimanenti attributi sono asimmetrici assumiamo i valori Y e P uguali ad 1, il valore N a 0 d d d ( ( ( jack jack jim,, mary, jim mary ) = = 0.33 ) = = 0.67 ) = = 0.75

96 Variabili Nominali Generalizzazioni delle variabili binarie (possono assumere molteplici etichette es. giallo, verde, rosso, ecc.) Metodo 1: Simple Matching m: # of matches, p: total # of variables d ( i, j) = p p m Metodo 2: utilizzo di un set di variabili binarie Creazione di una nuova variabile per ciascuna delle M etichette

97 Variabili Ordinali Possono essere discrete o continue L ordine è importante (es. rank) Possono essere trattate come le variabili a scala per intervallo Sostituendo x if con il rank corrispondente r 1,..., M } if { f Scalando i valori nel range [0, 1] sostituendo l iesimo valore nell f-esima variabile da r 1 if z = if M 1 Calcolo degli indici di similarità con i metodi delle variabili a scala per intervallo f

98 Variabili a Scala per rapporto Valori positivi su una scala non lineare come ad esempio l esponenziale Ae Bt or Ae -Bt Metodi: trattarle come variabili a scala per intervallo applicare una trasformazione logaritmica y if = log(x if ) trattarle come variabili ordinali continue e trattare i loro rank come variabili a scala per intervallo

99 Variabili di Tipo Misto Un set di dati può contenere qualsiasi tipo di variabili binarie (simmetriche e asimmetriche),nominali, ordinali a scala per intervallo, a scala per rapporto La seguente misura di prossimità pesata tiene conto degli effetti delle diverse variabili d ( i, j ) = Σ p f Σ δ = 1 p f = ( ij 1 f δ ) ( ij d f ( ij ) f ) f is binary or nominal: d ij (f) = 0 if x if = x jf, or d ij (f) = 1 o.w. f is interval-based: use the normalized distance f is ordinal or ratio-scaled compute ranks r if and and treat z if as interval-scaled

100 Selezione dell algoritmo Gerarchici Scissori Agglomerativi Non Gerarchici Generazione di Partizioni Con Sovrapposizione

101 Metodi per il calcolo delle distanze Richiedono come input la matrice delle distanze: Single Linkage (Metodo del Legame Singolo) Complete Linkage (Metodo del Legame Completo) Average Linkage (Metodo del Legame Medio) Richiedono come input la matrice dei dati: Metodo di Ward Richiedono come input la matrice dei dati e la matrice delle distanze: Metodo del Centroide

102 Single Linkage Clustering La distanza tra due gruppi è definita come il minimo delle n 1 n 2 distanze tra ciascuna unità di un gruppo A e ciascuna unità dell altro gruppo B d(a,b)=min(d ij ) B i A, j B A

103 Complete Linkage La distanza tra due gruppi è definita come il massimo delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo B d(a,b)=max(d ij ) i A, j B A

104 Average Linkage La distanza tra due gruppi è definita come la media aritmetica delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo d(a,b)= 1 n n 1 2 n 1 n 2 i= 1 j= 1 d ij B i A, j B A

105 Metodo del Centroide La distanza tra due gruppi A e B di numerosità n 1 en 2 è definita come la distanza dei rispettivi centroidi (medie aritmetiche) x 1 e x 2 d(a,b)=d( x 1, x 2 )

106 Metodo di Ward Questo metodo crea gruppi con la massima coesione interna e la massima separazione esterna La creazione dei gruppi avviene minimizzando la seguente funzione obiettivo: T=W+B T=devianza totale W=devianza nei gruppi (within groups) B=devianza fra i gruppi (between groups) Ad ogni passo della procedura si aggregano i gruppi che comportano il minor incremento W e il maggior incremento in B

107 Valutazione del Risultato Per ogni livello gerarchico dell algoritmo di classificazione si calcolano degli indicatori statistici Tali indicatori statistici misurano la variabilità: trai cluster, ovvero il livello di eterogeneità tra un gruppo e l altro (separazione esterna) entroi cluster, ovvero il livello di omogeneità all interno dei gruppi (coesione interna) Il valore di tali indicatori fornisce una misura della qualità della clusterizzazione

108 Indicatori Statistici (1) R 2 = rapporto tra la varianza tra i cluster e la varianza totale R 2 =1-(W/T)=B/T RSQ = valore di R 2 per ogni livello gerarchico Caratteristiche dell indicatore: R 2 [0,1] Valori prossimi ad 1 indicano partizioni ottimali R 2 =0 in presenza di un solo gruppo La sola massimizzazione dell R 2 porta a gruppi costituiti da una sola unità (necessario l uso congiunto di altri criteri)

109 Indicatori Statistici (2) PSF (Pseudo F Statistic) = misura del grado di separazione tra i cluster ad ogni livello gerarchico PSF = B/(c 1) W/(n c) c=numero di gruppi n=numero di osservazioni Diminuisce al diminuire del numero di cluster che originano dal processo di classificazione gerarchica Brusche variazioni indicano raggruppamenti di cluster molto diversi fra loro

110 Indicatori Statistici (3) RMSSTD = indica la devianza fra i gruppi aggiuntiva che si forma al corrispondente passo della procedura di classificazione RMSSTD = Wh p(n 1) h h=passo h-esimo della procedura W h =devianza del gruppo del passo h n h =numerosità del gruppo del passo h p=numero di variabili considerate Un forte incremento rispetto al passo precedente indica l unione di due gruppi fortemente eterogenei

111 Indicatori Statistici (4) SPRSQ (Semipartial R 2 ) = misura l incremento della devianza all interno del gruppo ottenuto unendo i gruppi r e s SPRSQ = (W h W T r W ) s h=nuovo gruppo ottenuto al passo h come fusione dei gruppi r e s W h =varianza interna al gruppo h W r =varianza interna al gruppo r W s =varianza interna al gruppo s Un forte incremento rispetto al passo precedente indica l unione di due gruppi fortemente eterogenei

112 Esempio (1) Clusterizzazione gerarchica con il metodo della MEDIA DI GRUPPO NCL Cluster Joined CLUSTER HISTORY FREQ SPRQS RSQ PSF PST2 10 CL18 OB CL15 CL CL16 CL CL10 CL CL8 CL CL6 CL CL5 CL CL4 CL CL3 OB CL2 OB Norm RMS Dist

113 Esempio (2) Clusterizzazione gerarchica con il metodo di WARD NCL Cluster Joined CLUSTER HISTORY FREQ SPRQS RSQ PSF PST2 10 CL14 CL CL12 OB CL18 1 CL CL19 CL CL13 CL CL9 CL CL7 OB CL6 CL CL5 CL CL2 CL ,

114 Indicatori Statistici Frequency = numero di unità statistiche appartenenti a ciascun cluster Max Distance from Seed to Observation = indica la distanza massima tra il centroide di ciascun cluster e la relativa osservazione maggiormente distante Distance between Cluster Centroids = indica la distanza tra i centroidi dei cluster individuati R_Squared = quota di varianza spiegata dall analisi a livello totale e relativamente a ciascuna delle variabili di input

115 Esempio (1) Cluster Clusterizzazione non gerarchica Frequency CLUSTER SUMMARY RMS Std Deviation Maximum Distance from seed to Observation Nearest Cluster Distance between Cluster Centroids

116 Esempio (2) Clusterizzazione non gerarchica Variable STATISTICS FOR VARIABLES Total STD Within STD R-Square RSQ/ (1-RSQ) FEDEL_B FEDEL_A ACCUMULO CONSUMO OVER-ALL

117 Esempio (3) Statistiche descrittive per i cluster individuati CLUSTER MEANS Cluster FEDEL_B FEDEL_A ACCUMUL O CONSU MO

118 Esempio (4) Statistiche descrittive per i cluster individuati CLUSTER STANDARD DEVIATIONS Cluster FEDEL_B FEDEL_A ACCUMUL O CONSU MO

119 Metodologie per Sistemi Intelligenti Clustering Esempi Applicativi Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

120 Summary Hierarchical Clustering K-means

122 Hierarchical Clustering Case A study to classify the cost impact of deregulation Need to build a detailed cost model of the various utilities The objects to be clustered are the utilities and there are 8 measurements on each utility Use of XLMiner TM tool

123 Set di dati

124 Dialog Box XLMiner TM tool (1) Data Range: Specify the range containing the data to be clustered Data Type: Hierarchical clustering can be used on Raw data (like the Utilities dataset above) or data in the distance matrix format (Explained in Ex 2.) Choose Raw data here Variable Names in the First Row: When this box is checked, XLMiner TM picks up variable names from the headers in the first row of the selected data range Variables: This list box displays all the available variables in the data range Selected Variables: From the list of all available variables, select those to be used in the clustering process

125 Dialog Box XLMiner TM tool (1) Normalize input data: Normalizing the data (subtracting the mean and dividing by the standard deviation) is important to ensure that the distance measure accords equal weight to each variable Similarity Measure: The option Euclidean distance is automatically chosen as explained in "Using Hierarchical Clustering" Clustering Method: Select average group linkage method

126 Dialog Box XLMiner TM tool (1) Draw dendogram: shows the dendogram Show cluster membership: gives the history of cluster raggrupmenf for each iteration # Clusters: the desired number of clusters

127 Clustering Stages Clustering Stages: This output details the history of the cluster formation

128 Dendrogram

130 K-mean Case A telecommunications provider wants to segment its customer base by service usage patterns Need to build a model to classify customers in order to offer more attractive packages The objects to be clustered are the client and there are 42 measurements on each client Use of SPSS tool

131 Dialog Box SPSS tool (1) Variables: displays the variables you have chosen for the anaysis Method: updates initial cluster centers in an iterative process Label Cases By: optionally you can use the values of a string variables to identify cases

132 Dialog Box SPSS tool (2) Maximum iterations: limits the number of iterations in the k-means algorithm. Convergence criterion: determines when iteration ceases Use running means: allows you to request that cluster centers be updated after each case is assigned

133 Dialog Box SPSS tool (3) Initial cluster centers: first estimate of the variable means for each of the clusters ANOVA table: displays an analysis-of-variance table wich includes univariate F test for each clustering variable Cluster information for each case: displays for each case the final cluster assignment and the euclidean distance between the case and the cluster center Exclude cases listwise: escludes cases with missing values for any clustering variable from the analysis Exclude cases pairwise: assigns cases to clusters based on distances computed from all variable with no missing values

134 Initial cluster centers are the variable values of the k well-spaced observation

135 Iteration History shows the progress of the clustering process at each step In early iterations, the cluster centers shift quite a lot. By the 14th iteration, they have settled down to the general area of their final location, and the last four iterations are minor adjustments

136 Change in Cluster Centers If the algorithm stops because the maximum number of iterations is reached, you may want to increase the maximum because the solution may otherwise be unstable For example, if you had left the maximum number of iterations at 10, the reported solution would still be in a state of flux

137 ANOVA Table indicates which variables contribute the most to your cluster solution Variables with large F values provide the greatest separation between clusters

138 Final Cluster Centers are computed as the mean for each variable within each final cluster Customers in cluster 1: tend to be big spenders who purchase a lot of services Customers in cluster 2: tend to be moderate spenders who purchase the "calling" services Customers in cluster 3: tend to spend very little and do not purchase many services

139 Cluster Distance and Numerosity Euclidean distances between the final cluster centers Clusters 1 and 3 are most different Cluster 2 is approximately equally similar to clusters 1 and 3 Cluster Numerosity: indicates the number of records in each cluster Clusters 3 is the biggest which unfortunately is the least profitable group