Cenni sulla cluster analysis

Distanze Dato un insieme E, una funzione d: E X E -> R + che ha le seguenti tre proprietà: d(x i, x j ) = 0 x i = x j d(x i, x j ) = d(x j, x i ) d(x i, x j ) d(x j, x h ) + d(x h, x j ) (disuguaglianza triangolare) è una distanza. Se vale d(x i, x j ) max {d(x j, x h ); d(x h, x j )} per ogni terna si ha una distanza ultrametrica. Ogni ultrametrica èuna distanza, ma non sempre èvero il contrario.

Indici di diversità Proprietà(meno forti di quelle delle distanze): 1) Δ(x i, x j ) 0 2) x i = x j Δ(x i, x j ) = 0 ATT.! Non sempre è vero il contrario 3) Δ(x i, x j ) = Δ(x j, x i ) Se nella 2) vale si hanno gli indici di distanza (che non sono distanze) Se si suppone valida la disuguaglianza triangolare si hanno le distanze.

La cluster analysis Linneo: Tutta la nostra conoscenza dipende dal modo con il quale distinguiamo il simile dal dissimile I limiti dei generi non possono essere individuati a priori. Finalità: svariate. Tra le tante: INDIVIDUARE OMOGENEITA TRA LE UNITA STATISTICHE

Tipologie di impiego (1/3) A Esistono dei gruppi (definizione assiomatica di gruppo omogeneo in funzione di una matrice di distanze o di similarità e di una o piùsogli prefissate) Se ne accerta l esistenza rispetto a: - Indicatori prescelti (variabili e/o mutabili) - Algoritmo di clustering

Tipologie di impiego (2/3) B Non esistono dei gruppi Analisi tipologica (ricerca di gruppi omogenei indipendentemente dalla loro esistenza e senza porsi problemi di conformitàa modelli teorici)

Tipologie di impiego (3/3) Sia per Ache per B: Scelta (soggettiva) di variabili e mutabili Scelta dell algoritmo, con preferenza per i metodi aggregativi, pur se teoricamente più deboli) NON ESISTONO VARIABILI SPIEGATE

Metodi di clustering Gerarchici Algoritmi scissori (top-down) - Superiorità teorica - Limiti di applicabilità Algoritmi aggregativi (bottom-up) - Di facile applicazione -Spesso influenzati dalla scelta iniziale Per tutti i metodi gerarchici: l assegnazione di un oggetto a un cluster è irrevocabile. Non gerarchici Solo di tipo aggregativo. Generano un unica partizione, tramite successive allocazioni (e ri-allocazioni) degli oggetti fino a giungere a una partizione c.d. «ottima»(sulla base di un criterio predefinito). L assegnazione di un oggetto a un cluster NON è irrevocabile.

Metodi aggregativi Validi, in genere, per una qualsiasi matrice di distanze o di similarità. Metodo del legame singolo (nearest neighbour) Metodo del legame medio Metodo del legame completo (furthest neighbour)

Metodi aggregativi Si basano tutti su un criterio di distanza minima. 1 Definire la distanza 2 Inizialmente, ogni unitàfa gruppo a sé 3 Fusioni successive tra le unitàcon distanza minore, fino a giungere ad un solo gruppo 4. Individuazione soggettivadel numero ottimale di gruppi

Legame singolo

Legame medio Nel calcolo della matrice delle distanze, si sostituisce la modalitàrelativa a ciascuna variabile con la media delle modalitàdel gruppo.

Legame completo Si basa su un criterio di distanza massima. Si considera come distanza il massimo delle distanze, anzichéil minimo come nel legame singolo.

Metodo del centroide Si applica solo a variabili quantitative. Per ogni gruppo (anche se formato solo da n = 1 oggetti) si calcola il baricentro; la distanza tra i gruppi ècalcolata come distanza tra i baricentri.

Quante distanze da calcolare? N Distanze da calcolare 2 1 3 3 4 6 5 10 10 45 25 300 50 1225 100 4950 200 19900 N Distanze da calcolare 300 44.850 5793 16.776.528 * 10000 49.995.000 * Cioècirca lo stesso numero di funzioni da calcolare per la prima suddivisione per n = 25 se si utilizza uno dei piùnoti algoritmi scissori (Cavalli-Sforza)

Metodi non gerarchici Aggregazioni dinamiche Si fissano (a caso) g centri provvisori. K-means Si assumono come centri provvisori i primi k individui. Si allocano via via le n-k unitàe ad ogni assegnazione si ricalcola subito il centroide del gruppo che si è modificato. In tal modo si accelera il miglioramento della classificazione. Il processo si arresta quando la differenza tra DW t-1 -DW t è minore di una soglia prefissata.

L algoritmo potrebbe convergere ad un ottimo locale (e non globale). Per ovviare a tale problema si può ripetere l analisi partendo da altri nuclei iniziali, cercando i gruppi stabili.

Dendrogramma

Per approfondire Fraire, M., Rizzi, A. Analisi dei dati per il data mining, Carocci, 2011, capp. 2 e 4 Terzi, S. La Cluster analysis, disponibile on line all indirizzo: host.uniroma3.it/facolta/economia/db/materiali/insegna menti/185_903.pdf