APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

Documenti analoghi
Statistica per l Impresa

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

SDE Marco Riani

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Statistica per l Impresa

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di

Statistica per le ricerche di mercato

C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.

Prova finale del 6 giugno 2011

I metodi di Classificazione automatica

5. Analisi dei Gruppi (Cluster Analysis)

Cenni sulla cluster analysis

I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica

Maria Brigida Ferraro + Luca Tardella

Metodi di classificazione. Loredana Cerbara

Introduzione all analisi di arrays: clustering.

Statistica per l Impresa

Misure di diversità tra unità statistiche. Loredana Cerbara

Analisi Multivariata Prova finale del 3 giugno 2010

Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento

Cluster Analysis (2 parte)

Analisi dei Gruppi con R

Definizione 1.3 (Arco accoppiato) Un arco è accoppiato se è appartenente al matching M.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

TECNICHE DI CLASSIFICAZIONE

Prova scritta di ASM - Modulo Analisi Esplorativa del

Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Clustering Mario Guarracino Data Mining a.a. 2010/2011

Segmentazione di immagini in scala di grigio basata su clustering

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

SCHEDA N. 6: CLUSTER ANALYSIS

Cluster Analysis: Metodi non gerarchici

Statistica Elementare

Controllo Statistico della Qualità (alcune note) A cura della Prof.ssa Paola Vicard e della Prof.ssa Flaminia Musella

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.

Elementi di base su modello binomiale e modello normale

Calcolo dell inflazione per differenti tipologie di famiglie milanesi

ASSEGNAZIONE STOCASTICA. SU RETI NON CONGESTIONATE SNL (Stochastic Network Loading)

QUANTIZZATORE VETTORIALE

Riconoscimento e recupero dell informazione per bioinformatica

Misura della performance di ciascun modello: tasso di errore sul test set

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

ANALISI DEI DATI PER IL MARKETING 2014

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Analisi delle corrispondenze

Teoria dei giochi. migliorare il proprio obiettivo il sistema ha raggiunto l equilibrio.

Statistica. Lezioni: 3, 4. Statistica Descrittiva Univariata 2

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Stesso valore medio per distribuzioni diverse

2. Variabilità mediante il confronto di valori caratteristici della

STATISTICA 1 ESERCITAZIONE 2

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica Strumenti quantitativi per la gestione

(a) Si proponga una formulazione di programmazione nonlineare a variabili misto-intere per problema.

Le Tecniche di Data Mining

Complementi ed Esercizi di Informatica Teorica II

REGISTRO DELLE LEZIONI

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Approcci multi-criterio III. Valutazione economica dei piani e dei progetti

SDE Marco Riani

Alcune nozioni di Statistica

Definizione della variabile c 2 Distribuzione della variabile c 2

Analisi della varianza

Algoritmi. Pagina 1 di 5

Statistica multivariata 27/09/2016. D.Rodi, 2016

REGISTRO DELLE LEZIONI

Scale di Misurazione Lezione 2

Riconoscimento e recupero dell informazione per bioinformatica

Analisi esplorativa di dati multidimensionali

04 - Numeri Complessi

Corso di Informatica Modulo T1 C1-Sequenza e selezione

Piano cartesiano e Retta

Metodi Statistici per il Management

Metodi Statistici per il Management

LA CASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI

Che cosa è la statistica oggi?

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

ELEMENTI DI STATISTICA DESCRITTIVA

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:

Indici di variabilità

Analisi delle corrispondenze

MD2 MD3. Basi di funzioni e funzioni di primo grado

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello

Statistica descrittiva in due variabili

Il metodo dei Piani di Taglio (Cutting Planes Method)

Slide Cerbara parte 1. Le medie

Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Matematica Lezione 22

Compiti tematici dai capitoli 2,3,4

Statistica. Campione

Transcript:

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in gruppi o clusters secondo criteri di similarità (o dissimilarità distanza). I gruppi devono essere caratterizzati da: un elevato grado di omogeneità (similarità) interna un elevato grado di eterogeneità (dissimilarità) tra i gruppi

L omogeneità e l eterogeneità vengono misurate (con misure che verranno introdotte in seguito) sulla base di un insieme di variabili. È importante che le variabili utilizzate: - presentino una certa eterogeneità nel collettivo oggetto di osservazione (per permettere di distinguere tra i diversi rispondenti) - siano rilevanti per lo scopo della ricerca (altrimenti potrebbero avere un ruolo del tutto fuorviante e dare luogo a risultati privi di senso). La cluster analysis ha un ruolo molto importante nelle analisi di segmentazione del mercato. Un segmento di mercato è un gruppo di clienti effettivi o potenziali che ci si può attendere rispondano in modo simile all offerta di un prodotto o di un servizio. 2

La segmentazione del mercato è il processo di divisione dei clienti (le cui valutazioni di un prodotto o di un servizio possono essere estremamente variabili) in gruppi (segmenti) di clienti le cui valutazioni sono alquanto omogenee all interno del gruppo. La cluster analysis non è importante solo per la segmentazione della clientela ma anche per: l identificazione di nuovi prodotti attraverso la previa clusterizzazione dei prodotti già esistenti sul mercato attraverso le loro caratteristiche. Formare gruppi di marchi o prodotti simili rispetto a caratteristiche specifiche con lo scopo di individuare i competitor, gli spazi di mercato non occupati ed eventuali nicchie di mercato disponibili. 3

La cluster analysis può essere applicata in congiunzione con altre tecniche statistiche multivariate. In particolare, la cluster analysis può essere applicata a partire dai risultati dell analisi fattoriale: 1. l analisi fattoriale consente, prima, di ridurre il numero delle variabili; 2. la cluster analysis consente di ridurre il numero delle osservazioni raggruppandole in cluster omogenei. Si noti che questa metodologia statistica consente di effettuare la segmentazione a posteriori. 4

ESEMPIO: vediamo un piccolo esempio relativo a 9 persone sulle quali sono stati rilevati il reddito (in migliaia di Euro) e l età. Unità Reddito Età 1 12 23 2 25 20 3 16 27 4 81 26 5 58 25 6 70 35 7 40 55 8 48 64 9 51 69 Innanzitutto vediamo una rappresentazione grafica del nostro data set. 5

80 70 60 50 Età 40 30 20 10 0 0 20 40 60 80 Reddito Da questo grafico vediamo che emerge la possibilità di partizionare le nove unità in tre gruppi. 6

80 70 60 50 Età 40 30 20 10 0 0 20 40 60 80 Reddito 7

Nel fare questa affermazione siamo certamente stato aiutati dal colpo d occhio che ci fa cogliere quelle che sono le unità più vicine fra loro. In generale, però, le variabili usate per la cluster analysis sono più di due e, quindi, non si dispone di semplici rappresentazioni grafiche come quella appena vista. Diventa, quindi, determinante misurare la dissimilarità tra unità e tra gruppi. Per fare ciò occorre, innanzitutto definire i metodi di misurazione della similarità o della dissimilarità (distanza) fra unità e fra gruppi. 8

Misure di similarità e dissimilarità tra gruppi Innanzitutto vediamo le metriche per misurare la dissimilarità fra due unità. Consideriamo il caso di caratteri quantitativi. Una misura di distanza deve godere delle seguenti proprietà: 1. d ij 0 (non negatività) 2. d ii = 0 3. d ij = d ji (simmetria) 4. d ij d ir + d rj (disuguaglianza triangolare) Le misure più usate sono: - la distanza euclidea. 9

Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è 2 2 ( ) ( ) d 12 = 12 25 + 23 20 = 178 = 13. 34. In generale la distanza euclidea tra due generiche unità i e j sui cui sono state rilevate p variabili è data da 2 2 2 d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj dove il generico x pi indica il valore che la variabile p assume nell unità i. - La metrica di Manhattan (o della città a blocchi). Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è d = 12 25 + 23 20 = 16 12 10

In generale questa distanza è data da d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj - la distanza euclidea ponderata. In generale la distanza euclidea ponderata tra due generiche unità i e j sui cui sono state rilevate p variabili è data da 2 2 2 d = x x w + x x w + + x x w ij 1i 1j 1 2i 2 j 2 pi pj p L uso di questo tipo di distanza può essere utile se si vogliono standardizzare le variabili. 1 1 1 In tal caso basta porre w1 =, w 2 2 =,, w 2 p = 2 s s s per ottenere che 1 2 p 11

2 2 2 d x x 1 x x 1 = + + + x x 1 ij 1i 1j 2 2i 2 j 2 s s pi pj s2 1 2 p ossia la distanza euclidea ponderata con l inverso delle varianze equivale alla distanza euclidea calcolata sulle variabili standardizzate xih xh zih =, i = 1,, n h = 1,, p s h 2 Nel nostro esempio, s reddito = 498.69 e s età = 324.17. Quindi la distanza euclidea tra l unità 1 e l unità 2 è 2 1 2 1 d 12 = ( 12 25) + ( 23 20) = 0. 37 = 0. 61 498. 69 324. 17 2 Osservazione: bisogna prestare attenzione, quando si calcolano queste distanze, al caso in cui le unità di misura (o le scale) usate per 12

misurare o codificare le diverse variabili siano comparabili o meno. Per evitare il problema della comparabilità delle unità di misura si possono standardizzare le variabili prima di procedere al calcolo delle distanze. Consideriamo il caso di attributi dicotomici. Supponiamo di disporre di p misurazioni dicotomiche effettuate su n individui. Ad esempio si consideri la presenza (codificata con 1) o l assenza (codificata con 0) di p attributi su due unità generiche: Unità i 1 1 0 1 1 0 1 0 0 Unità j 1 0 1 1 0 1 1 1 0 I dati possono essere sintetizzati mediante la seguente tabella 13

Unità i 1 0 Unità j 1 a b 0 c d Dove a rappresenta il numero di attributi presenti in entrambe le unità; b rappresenta il numero di attributi presenti nell unità j ma non nell unità i; c rappresenta il numero di attributi presenti nell unità i ma non nell unità j; d rappresenta il numero di attributi assenti in entrambe le unità. Si ha a + b + c + d = p. Nel nostro esempio, la tabella risulta data da: Unità i 1 0 Unità j 1 3 3 0 2 1 14

A partire dalla tabella, si possono definire misure di similarità e di dissimilarità. Vediamone alcune: - Simple matching. La misura di similarità si basa sulla proporzione di attributi che sono presenti o assenti in entrambe le unità a + d cij = p La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = p - Coefficiente di similarità di Jaccard. La misura di similarità si basa sulla proporzione, sugli attributi che sono presenti in almeno una unità, degli attributi presenti in entrambe le unità 15

a cij = a + b + c La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = a + b + c 16

Consideriamo, ad es. la distanza euclidea al quadrato. In generale la distanza euclidea al quadrato tra due generiche unità i e j sui cui sono state rilevate p variabili è data da ( 1 1 ) ( 2 2 ) ( ) 2 2 2 2 ij = i j + i j + + pi pj d x x x x x x dove il generico x pi indica il valore che la variabile p assume nell unità i. Le misure delle distanze tra tutte le possibili coppie delle n unità possono essere riassunte mediante la seguente matrice delle distanze che nel nostro esempio è data da: 1 2 3 4 5 6 7 8 9 1 0 178 32 4770 2120 3508 1808 2977 3637 2 0 130 3172 1114 2250 1450 2465 3077 3 0 4226 1768 2980 1360 2393 2989 4 0 530 202 2522 2533 2749 5 0 244 1224 1621 1985 6 0 1300 1325 1517 7 0 145 317 8 0 34 9 0 17

Metodi di cluster analysis Una volta misurate le dissimilarità fra unità si deve procedere alla vera e propria creazione dei gruppi. I metodi possono essere raggruppati in due macrocategorie: Metodi gerarchici. Questi a loro volta si dividono in metodi: 1.agglomerativi (che in modo sequenziale, partono dallo stato in cui ogni unità costituisce un gruppo e per aggregazione successiva di una unità al gruppo più vicino, arrivano allo stato in cui tutte le unità appartengono allo stesso, e quindi, solo gruppo) 2.disaggregativi (che funziono sempre in modo sequenziale ma inverso rispetto ai metodi aggregativi). Metodi non gerarchici (o partitivi) mediante i quali i dati vengono partizionati in un numero di gruppi fissato a priori. 18

I metodi agglomerativi I metodi agglomerativi differiscono fra loro per il metodo utilizzato per calcolare la distanza tra gruppi o tra una unità e un gruppo. Un po di notazione. Indichiamo con: - d ij la distanza tra le unità i e j; - C ij il cluster ottenuto dal raggruppamento delle unità i e j; - C A e C B due cluster con rispettivamente n A e n B unità e con baricentri (o medie) x = 1 e 1 A n x i x = B n x i Ai C A B i C B 19

I metodi più utilizzati sono: Metodo del legame singolo (o metodo della distanza minima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più vicini. 3 1 2 5 4 Questo metodo tende ad identificare cluster di dimensione ampia. Inoltre può anche produrre cluster di forma allungata visto che per unire due gruppi basta che questi possiedano due unità (una per gruppo) molto vicine (le rimanenti possono anche essere molto lontane). 20

Metodo del legame completo (o metodo della distanza massima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più lontani. 3 1 2 5 4 Questo metodo tende a raggruppare insiemi di osservazioni vicine tra loro perché è basato sulle distanze massime tra gruppi. Quindi i gruppi risultanti hanno spesso forma sferica. Metodo del legame medio (o metodo della distanza media). La distanza tra due cluster C A e C B è data dalla media delle distanze tra tutte le possibili coppie di elementi (di cui uno in C A e uno in C B ). 21

Metodo di Ward. È un metodo gerarchico alternativo rispetto ai precedenti che sono basati sul calcolo di distanze tra gruppi (clusters). I gruppi vengono uniti sulla base della minimizzazione della perdita di informazione derivante dal raggruppamento di unità appartenenti a gruppi differenti. La perdita di informazione viene misurata come somma delle distanze di ogni elemento dalla media del cluster a cui viene assegnato (tale somma può essere chiamata varianza interna al cluster proposto). Viene, quindi, fusa la coppia di cluster per cui la varianza entro i cluster risultanti dalla fusione è minima. Questo metodo tende a produrre gruppi che hanno circa lo stesso numero di osservazioni. Metodo del centroide. La distanza tra i cluster è pari alla distanza tra i valori medi (detti centroidi) calcolati sulle unità appartenenti ai gruppi. Questo metodo fa sì che cluster grandi tendano ad attrarre al loro interno cluster piccoli. 22

ESEMPIO: consideriamo il nostro data set su reddito e età e procediamo al raggruppamento usando a scopo illustrativo il metodo del legame singolo. Di seguito si riporta la matrice delle distanze euclidee al quadrato. 1 2 3 4 5 6 7 8 9 1 0 178 32 4770 2120 3508 1808 2977 3637 2 0 130 3172 1114 2250 1450 2465 3077 3 0 4226 1768 2980 1360 2393 2989 4 0 530 202 2522 2533 2749 5 0 244 1224 1621 1985 6 0 1300 1325 1517 7 0 145 317 8 0 34 9 0 In blu è stata evidenziata la distanza minima. 23

Vediamo che le unità più vicine sono la 1 e la 3 che quindi possono essere unite per formare un gruppo. Calcoliamo le nuove distanze usando sempre il metodo del legame singolo. C 1 =1-3 2 4 5 6 7 8 9 C 1 =1-3 0 130 4226 1768 2980 1360 2393 2989 2 0 3172 1114 2250 1450 2465 3077 4 0 530 202 2522 2533 2749 5 0 244 1224 1621 1985 6 0 1300 1325 1517 7 0 145 317 8 0 34 9 0 Vediamo che la distanza minima si ha tra l unità 8 e l unità 9 che quindi possono essere unite in un gruppo. Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 24

C 1 =1-3 2 4 5 6 7 C 2 =8-9 C 1 =1-3 0 130 4226 1768 2980 1360 2393 2 0 3172 1114 2250 1450 2465 4 0 530 202 2522 2533 5 0 244 1224 1621 6 0 1300 1325 7 0 145 C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 1 e l unità 2 che quindi possono essere unite in un gruppo (diciamo C 3 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 25

C 3 =1,2,3 4 5 6 7 C 2 =8-9 C 3 =1,2,3 0 3172 1114 2250 1360 2393 4 0 530 202 2522 2533 5 0 244 1224 1621 6 0 1300 1325 7 0 145 C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 2 e l unità 7 che quindi possono essere unite in un gruppo (diciamo C 4 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 26

C 3 =1,2,3 4 5 6 C 4 =7,8,9 C 3 =1,2,3 0 3172 1114 2250 1360 4 0 530 202 2522 5 0 244 1224 6 0 1300 C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra l unità 4 e l unità 6 che quindi possono essere unite in un gruppo (diciamo C 5 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 5 =4,6 5 C 4 =7,8,9 C 3 =1,2,3 0 2250 1114 1360 C 5 =4,6 0 244 1300 5 0 1224 C 4 =7,8,9 0 27

Vediamo che la distanza minima si ha tra C 5 e l unità 5 che quindi possono essere unite in un gruppo (diciamo C 6 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 6 =4,5,6 C 4 =7,8,9 C 3 =1,2,3 0 1114 1360 C 6 =4,5,6 0 1224 C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra C 3 e C 6 che quindi possono essere unite in un gruppo (diciamo C 7 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3,4,5,6 C 4 =7,8,9 C 3 =1,2,3,4,5,6 0 1224 C 4 =7,8,9 0 28

Abbiamo visto attraverso l esempio che i metodi gerarchici agglomerativi costituiscono una procedura iterativa che si articola nei seguenti passi: 1. all inizio ciascuna unità costituisce un gruppo distinto. La distanza tra i gruppi è quindi data dalla matrice delle distanze tra unità; 2. i due gruppi che possiedono distanza minima (secondo il metodo che si preferisce usare tra quelli sopra illustrati) vengono fusi. Si registra la distanza a cui avviene la fusione; 3. si calcola la distanza tra il nuovo cluster, sorto dalla fusione effettuata al punto 2., e i cluster già esistenti. Si aggiorna la matrice delle distanze che, così, avrà una riga e una colonna in meno (perché calcolata dopo la fusione di due gruppi); 4. vengono ripetuti i passi 2. e 3. finché non si giunge alla configurazione in cui tutte le unità sono in un gruppo solo (ciò avviene in n 1 iterazioni). 29

È possibile assegnare ad ogni gruppo appena formato un indice di aggregazione. Questo è dato dalla distanza fra le due classi appena aggregate. Il processo di aggregazione può essere poi visualizzato mediante un diagramma ad albero detto dendrogramma in cui le altezze sono proporzionali agli indici di aggregazione. Il dendrogramma, quindi, riporta sull asse verticale il livello di distanza (distance level) a cui avviene la fusione e sull asse orizzontale le unità organizzate secondo una struttura ad albero. Ad ogni livello di distanza corrisponde una partizione. Il dendrogramma consente anche di visualizzare quanto un gruppo è separato dagli altri gruppi. Il rapporto tra il livello di distanza a cui un gruppo si forma e il livello di distanza a cui questo gruppo si fonde con un altro gruppo indica quanto il cluster è delimitato e separato dai rimanenti. 30

Torniamo al nostro esempio e vediamo il dendrogramma che descrive l operazione di agglomerazione con metodo gerarchico agglomerativo del legame singolo e distanza euclidea al quadrato. Dendrogram Single Linkage; Squared Euclidean Distance 1224,00 Distance 816,00 408,00 0,00 1 3 2 4 6 5 Observations 7 8 9 31

Scelta del numero dei gruppi I metodi gerarchici aggregativi esplorano tutti i possibili diversi livelli di aggregazione. È compito del ricercatore, quindi, scegliere sulla base degli output quale possa essere la migliore partizione. A questo scopo il dendrogramma costituisce un ottimo supporto. Si può, infatti, tagliare il dendrogramma ad una certa altezza. Distance 1224,00 816,00 408,00 0,00 1 Dendrogram Single Linkage; Squared Euclidean Distance 3 2 4 6 5 Observations 7 8 9 Il punto di taglio può essere trovato cercando il punto in cui avviene il salto (in termini di asse verticale) più consistente. Accanto vediamo (rappresentato con un segmento blu) il taglio nel nostro esempio. 32

Per la scelta del numero ottimale di gruppi in cui suddividere le unità ci si può anche avvalere dell output della procedura di cluster analysis. In particolare, come vedremo nell esempio riportato nella pagina successiva, si possono calcolare degli opportuni indicatori che aiutano ad identificare il punto di salto. Ad esempio un indicatore è il livello di similarità che viene calcolato ad ogni passo della procedura iterativa. Il livello di similarità ad un determinato passo è dato da d ij 1, d dove d ij è la distanza tra le unità che a quel passo vengono fuse (ossia la distanza minima in quel passo) e d max è il valore massimo della distanza nella matrice iniziale delle distanze tra le unità. Il passo nel quale il valore del livello di similarità subisce un brusco cambiamento può essere un buon punto per tagliare il dendrogramma e, quindi, per scegliere il numero ottimale di gruppi. max 33

Cluster Analysis of Observations: reddito; età Squared Euclidean Distance, Single Linkage Amalgamation Steps Indice di aggregazione Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster 1 8 99.3291 32 1 3 1 2 2 7 99.2872 34 8 9 8 2 3 6 97.2746 130 1 2 1 3 4 5 96.9602 145 7 8 7 3 5 4 95.7652 202 4 6 4 2 6 3 94.8847 244 4 5 4 3 7 2 76.6457 1114 1 4 1 6 8 1 74.3396 1224 1 7 1 9 Nota: si noti che Minitab consente di produrre un dendrogramma che rappresenta sull asse delle ordinate proprio il livello di similarità (espresso in termini percentuali). 34

I metodi non gerarchici I metodi non gerarchici, a differenza dei gerarchici, non producono una gerarchia di partizioni delle osservazioni ma producono una sola partizione. Ciò significa che occorre stabilire (o conoscere) a priori il numero di cluster in cui suddividere le osservazioni. Vediamo, in generale, i passi i cui si articolano i metodi non gerarchici. Supponiamo che i gruppi siano K: 1. sono determinati i centri iniziali dei K cluster. Questi centri o sono individuati dal ricercatore/analista oppure sono selezionati casualmente dal software (ossia sono K osservazioni scelte a caso) 2. le osservazioni sono assegnate ai cluster sulla base della loro distanza dal centro del cluster (ciascuna osservazione viene assegnata al cluster con il centro meno distante dall osservazione) 35

3. si calcolano i centri dei nuovi cluster risultanti dalla procedura di assegnazione al punto 2. 4. i passi 2. e 3. vengono ripetuti fintantoché nessuna osservazione può essere più riallocata oppure finché non viene verificata una regola di stop. Esistono diversi metodi non gerarchici. Questi differiscono nella determinazione del criterio di ottimalità della partizione. Vediamo il metodo più diffuso. 36

Il metodo delle K medie (K-means) Il metodo delle K-medie ricerca la partizione ottimale in K cluster che minimizza la devianza entro i cluster. In altre parole, l algoritmo opera sulla base della seguente funzione obiettivo: K ( c ) ( c ) ( c WSS = x ) 1i x1 + x2i x2 + + xpi xp within sum of squares c= 1 unità i nel cluster c 2 2 2 dove: - x 1i indica, ad esempio, la modalità della variabile X 1 mostrata dall unità i appartenente al cluster c, c=1,...,k c - 1 x indica, ad esempio, il valore medio (o centroide) della variabile X 1 calcolato con riferimento alle sole osservazioni appartenenti al cluster c, c=1,...,k. 37

Se ne deduce che WSS rappresenta la somma delle devianze interne ai gruppi. L algoritmo delle K-medie si propone di trovare la partizione ottimale nel senso che minimizza la devianza WSS. Vediamo i passi dell algoritmo K-medie. 1. si specificano i K punti iniziali come centroidi scegliendo in maniera opportuna (se si hanno conoscenze a priori) o casuale (se non si hanno conoscenze a priori) alcune unità; 2. ciascuna unità viene assegnata al cluster il cui centroide si trova alla distanza più piccola; 3. vengono aggiornati i valori dei centroidi per ciascuno del K gruppi; 4. si procede iterativamente a spostamenti successivi fino a raggiungere una configurazione stabile (ossia finché non si può più riallocare nessuna unità). 38

L algoritmo è abbastanza veloce e stabile nel senso che, partendo da centroidi iniziali diversi, tende a giungere alla stessa configurazione finale. Quando la popolazione analizzata è piuttosto omogenea e non ammette partizioni, i risultati possono variare molto. Quindi, se non si hanno informazioni a priori sufficientemente affidabili, è consigliabile applicare l algoritmo con valori iniziali diversi e controllare la stabilità della soluzione ottenuta. Un nodo cruciale è la scelta del numero di cluster. Un indice che può essere utilizzato è quello di Calinski e Harabsz: B ( k 1) CHk = WSS ( n k ) dove B rappresenta la devianza tra i gruppi che può essere calcolata come differenza tra la devianza totale e la devianza within. Si sceglie la partizione tale che CH k è massima. 39

Metodi gerarchici vs Metodi non gerarchici Confrontiamo alcune caratteristiche dei due metodi di cluster analysis. I metodi gerarchici: non richiedono di conoscere/scegliere a priori il numero di cluster possono essere molto lenti; allora è preferibile usarli su piccoli dataset ad ogni passo richiedono il calcolo dell intera matrice delle distanze I metodi non gerarchici: richiedono di conoscere/scegliere a priori il numero di cluster possono richiedere la specificazione dei centroidi iniziali sono veloci, generalmente affidabili e possono essere usati anche per grandi dataset ad ogni passo richiedono il calcolo solo delle distanze delle unità dai centroidi 40