Cenni sulla cluster analysis

Documenti analoghi
Statistica per l Impresa

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Metodi di classificazione. Loredana Cerbara

SDE Marco Riani

I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica

Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto

I metodi di Classificazione automatica

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Statistica per l Impresa

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

Statistica per l Impresa

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

TECNICHE DI CLASSIFICAZIONE

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di

Prova scritta di ASM - Modulo Analisi Esplorativa del

Misura della performance di ciascun modello: tasso di errore sul test set

Clustering. Clustering

Introduzione all analisi di arrays: clustering.

Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale

5. Analisi dei Gruppi (Cluster Analysis)

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Strategie risolutive e algoritmi per problemi di partizionamento ottimo di grafi

Maria Brigida Ferraro + Luca Tardella

Statistica per le ricerche di mercato

Misure di diversità tra unità statistiche. Loredana Cerbara

Riconoscimento e recupero dell informazione per bioinformatica

Esercizi di preparazione per il primo esonero

ANALISI DEI DATI PER IL MARKETING 2014

Data Science A.A. 2018/2019

Algoritmi greedy. Gli algoritmi che risolvono problemi di ottimizzazione devono in genere operare una sequenza di scelte per arrivare alla soluzione

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Le Tecniche di Data Mining

Algoritmi greedy. Gli algoritmi che risolvono problemi di ottimizzazione devono in genere operare una sequenza di scelte per arrivare alla soluzione

Tesina Intelligenza Artificiale Maria Serena Ciaburri s A.A

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione

REGRESSIONE E CORRELAZIONE

Che cosa è la statistica oggi?

Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:

Statistica multivariata 27/09/2016. D.Rodi, 2016

26. Le aree funzionali

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

La valutazione di adeguatezza nel servizio di consulenza. Seminario Tecnico Milano, 18 novembre 2010

Ingegneria della Conoscenza e Sistemi Esperti Lezione 2: Apprendimento non supervisionato

C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.

Matematica e Consulenza: un connubio perfetto. Mirco Patriarca Università di Pavia, Marzo 2018

MODELLI DI SVALUTAZIONE

Clustering Mario Guarracino Data Mining a.a. 2010/2011

ATTIVITÀ IN CAMPO SISMICO RECENTI STUDI E SVILUPPI FUTURI

Metodi Statistici per il Management

Metodi Statistici per il Management

LA CASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI

Appunti sulla segmentazione dei mercati

Riconoscimento e recupero dell informazione per bioinformatica

I metodi quantitativi nelle indagini di Insider Trading

ANALISI DEL QUADRO DEMOGRAFICO DELL ASL DI BERGAMO. A cura dell Osservatorio Socio-Sanitario Direzione Sociale ASL di Bergamo

L ELABORATORE ELETTRONICO

Pattern recognition. III Parte. Intelligenza Artificiale - Pattern Recognition 3

Cluster Analysis (2 parte)

Sergio Bolasco MULTIDIMENSIONALE. Metodi, strategie e criteri d'interpretazione DEI DATI. nez1à. .arocc1 ISIVO

Esercitazione di Statistica Indici di associazione

Statistica per l impresa

REGISTRO DELLE LEZIONI

I Componenti del processo decisionale 7

ANALISI DEI DATI PER IL MARKETING 2014

A. Ferrari Informatica

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

L ELABORATORE ELETTRONICO!

REGISTRO DELLE LEZIONI

LA TOMOGRAFIA SISMICA PER LO STUDIO DI CAVITÀ ANTROPICHE. DATI SINTETICI E SPERIMENTALI.

L insider Trading e il Valore dell Informazione Privilegiata

concetto di attività Il controllo di gestione Sinonimo di aggregato di operazioni di gestione elementari tecnicamente omogenee

Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval

Le graduatorie basate su una molteplicità di indicatori. I pericoli della sintesi di variabili disomogenee.

La regressione lineare. Rappresentazione analitica delle distribuzioni

Metodi statistici per le ricerche di mercato

Modello analitico per l analisi dei rischi

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Elaboratore Elettronico

Analisi esplorativa di dati multidimensionali

Grafi e Funzioni di Costo ESERCIZI

Proposta sistema elettorale per elezioni parlamentari

Misure della diseguaglianza

LA PIANIFICAZIONE SANITARIA. Processo dinamico di previsione di risorse e dei servizi richiesti per raggiungere obiettivi secondo priorità stabilite

Prova finale del 6 giugno 2011

Indice. Prefazione. Capitolo 1 Introduzione al data warehousing 1

Corso di Laurea in Ingegneria Gestionale. Anno Accademico Algoritmo K-means per problemi di Clustering. Stefano Lucidi

Introduzione. La teoria economica: oggetto e metodo

Definizione dei gruppi sociali e loro descrizione

Procedure e funzioni A. Ferrari

Analisi dell associazione tra due caratteri

I metodi Electre. La scelta fra le alternative: i metodi Electre. Perché introdurre l incompletezza? I metodi Electre: elementi comuni

Bosi (a cura di), Corso di scienza delle finanze, il Mulino, 2012 Capitolo I, lezione 1 Il problema e alcune premesse

Metodologie di Clustering

Cluster Analysis 1/40. Cluster Analysis. c 11 giugno 2005 Luca La Rocca

Operazioni sulle immagini digitali

Cluster Analysis: Metodi non gerarchici

MODELLI DI ASSEGNAZIONE PER LE RETI STRADALI

Transcript:

Cenni sulla cluster analysis

Distanze Dato un insieme E, una funzione d: E X E -> R + che ha le seguenti tre proprietà: d(x i, x j ) = 0 x i = x j d(x i, x j ) = d(x j, x i ) d(x i, x j ) d(x j, x h ) + d(x h, x j ) (disuguaglianza triangolare) è una distanza. Se vale d(x i, x j ) max {d(x j, x h ); d(x h, x j )} per ogni terna si ha una distanza ultrametrica. Ogni ultrametrica èuna distanza, ma non sempre èvero il contrario.

Indici di diversità Proprietà(meno forti di quelle delle distanze): 1) Δ(x i, x j ) 0 2) x i = x j Δ(x i, x j ) = 0 ATT.! Non sempre è vero il contrario 3) Δ(x i, x j ) = Δ(x j, x i ) Se nella 2) vale si hanno gli indici di distanza (che non sono distanze) Se si suppone valida la disuguaglianza triangolare si hanno le distanze.

La cluster analysis Linneo: Tutta la nostra conoscenza dipende dal modo con il quale distinguiamo il simile dal dissimile I limiti dei generi non possono essere individuati a priori. Finalità: svariate. Tra le tante: INDIVIDUARE OMOGENEITA TRA LE UNITA STATISTICHE

Tipologie di impiego (1/3) A Esistono dei gruppi (definizione assiomatica di gruppo omogeneo in funzione di una matrice di distanze o di similarità e di una o piùsogli prefissate) Se ne accerta l esistenza rispetto a: - Indicatori prescelti (variabili e/o mutabili) - Algoritmo di clustering

Tipologie di impiego (2/3) B Non esistono dei gruppi Analisi tipologica (ricerca di gruppi omogenei indipendentemente dalla loro esistenza e senza porsi problemi di conformitàa modelli teorici)

Tipologie di impiego (3/3) Sia per Ache per B: Scelta (soggettiva) di variabili e mutabili Scelta dell algoritmo, con preferenza per i metodi aggregativi, pur se teoricamente più deboli) NON ESISTONO VARIABILI SPIEGATE

Metodi di clustering Gerarchici Algoritmi scissori (top-down) - Superiorità teorica - Limiti di applicabilità Algoritmi aggregativi (bottom-up) - Di facile applicazione -Spesso influenzati dalla scelta iniziale Per tutti i metodi gerarchici: l assegnazione di un oggetto a un cluster è irrevocabile. Non gerarchici Solo di tipo aggregativo. Generano un unica partizione, tramite successive allocazioni (e ri-allocazioni) degli oggetti fino a giungere a una partizione c.d. «ottima»(sulla base di un criterio predefinito). L assegnazione di un oggetto a un cluster NON è irrevocabile.

Metodi aggregativi Validi, in genere, per una qualsiasi matrice di distanze o di similarità. Metodo del legame singolo (nearest neighbour) Metodo del legame medio Metodo del legame completo (furthest neighbour)

Metodi aggregativi Si basano tutti su un criterio di distanza minima. 1 Definire la distanza 2 Inizialmente, ogni unitàfa gruppo a sé 3 Fusioni successive tra le unitàcon distanza minore, fino a giungere ad un solo gruppo 4. Individuazione soggettivadel numero ottimale di gruppi

Legame singolo

Legame medio Nel calcolo della matrice delle distanze, si sostituisce la modalitàrelativa a ciascuna variabile con la media delle modalitàdel gruppo.

Legame completo Si basa su un criterio di distanza massima. Si considera come distanza il massimo delle distanze, anzichéil minimo come nel legame singolo.

Metodo del centroide Si applica solo a variabili quantitative. Per ogni gruppo (anche se formato solo da n = 1 oggetti) si calcola il baricentro; la distanza tra i gruppi ècalcolata come distanza tra i baricentri.

Quante distanze da calcolare? N Distanze da calcolare 2 1 3 3 4 6 5 10 10 45 25 300 50 1225 100 4950 200 19900 N Distanze da calcolare 300 44.850 5793 16.776.528 * 10000 49.995.000 * Cioècirca lo stesso numero di funzioni da calcolare per la prima suddivisione per n = 25 se si utilizza uno dei piùnoti algoritmi scissori (Cavalli-Sforza)

Metodi non gerarchici Aggregazioni dinamiche Si fissano (a caso) g centri provvisori. K-means Si assumono come centri provvisori i primi k individui. Si allocano via via le n-k unitàe ad ogni assegnazione si ricalcola subito il centroide del gruppo che si è modificato. In tal modo si accelera il miglioramento della classificazione. Il processo si arresta quando la differenza tra DW t-1 -DW t è minore di una soglia prefissata.

L algoritmo potrebbe convergere ad un ottimo locale (e non globale). Per ovviare a tale problema si può ripetere l analisi partendo da altri nuclei iniziali, cercando i gruppi stabili.

Dendrogramma

Per approfondire Fraire, M., Rizzi, A. Analisi dei dati per il data mining, Carocci, 2011, capp. 2 e 4 Terzi, S. La Cluster analysis, disponibile on line all indirizzo: host.uniroma3.it/facolta/economia/db/materiali/insegna menti/185_903.pdf