Metodi di classificazione. Loredana Cerbara

Documenti analoghi
Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Misure di diversità tra unità statistiche. Loredana Cerbara

Disequazioni di secondo grado

Kangourou della Matematica 2012 Coppa a squadre Kangourou Semifinale turno A Cervia, 5 maggio Quesiti

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

I metodi di Classificazione automatica

Piano cartesiano e retta

Luigi Piroddi

Anno 1. Quadrilateri

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Figura 7: Ruota della Fortuna. Quanti sono i casi possibili? G. Sanfilippo - CdP - STAD - Lezione 2 del 12 Aprile pag. 15

Insiemi di numeri reali

UNITÀ DIDATTICA 5 LA RETTA

Possibile applicazione

Insiemi: Rappresentazione

Unità Didattica N 9 : La parabola

Introduzione all analisi di arrays: clustering.

Corso di Programmazione Problem Solving. Tipi di Problemi. Problemi Complessi Soluzione. Dott. Pasquale Lops. Primitivi. Complessi

Ancora sui criteri di divisibilità di Marco Bono

Appunti su Indipendenza Lineare di Vettori

La codifica digitale

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

AUTOMA A STATI FINITI

Esercitazioni di statistica

Introduzione alla programmazione

Analisi ABC incrociata

Complementi ed Esercizi di Informatica Teorica II

Condizione di allineamento di tre punti

Teoria e tecniche dei test

Concentriamo la nostra attenzione sull insieme dei numeri razionali Q. In Q sono definite

Progetto Matematica in Rete - Insiemi - Insiemi

Lezione 6 Richiami di Geometria Analitica

SOLUZIONI DEL 1 0 TEST DI PREPARAZIONE ALLA 1 a PROVA INTERMEDIA

Le disequazioni di primo grado. Prof. Walter Pugliese

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

REGRESSIONE E CORRELAZIONE

5.4.5 Struttura dell algoritmo ed esempi

FUNZIONI. }, oppure la

Luigi Piroddi

LEZIONE 3. a + b + 2c + e = 1 b + d + g = 0 3b + f + 3g = 2. a b c d e f g

Ricerca Operativa. Ricerca Operativa p. 1/2

La dualità nella Programmazione Lineare

L ELABORATORE ELETTRONICO

Riconoscimento automatico di oggetti (Pattern Recognition)

(x B x A, y B y A ) = (4, 2) ha modulo

I numeri complessi. Andrea Corli 31 agosto Motivazione 1. 2 Definizioni 1. 3 Forma trigonometrica di un numero complesso 3

3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI

Copyright Esselibri S.p.A.

GLI INSIEMI PROF. WALTER PUGLIESE

Corso di Calcolo Numerico

II Università degli Studi di Roma

2. I numeri reali e le funzioni di variabile reale

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Sommario Codifica dei dati Macchina Astratta Definizioni Esempi

Geometria Analitica Domande e Risposte

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone

Sistemi Web per il turismo - lezione 3 -

Nozioni introduttive e notazioni

P (A) = P (B) = P (A ^ B) = P (A _ B) = P (A _ A c B)= P ([A _ B] ^ [A c _ B c ]) =

Un ripasso di aritmetica: Conversione dalla base 10 alla base 2

EQUAZIONE DELLA RETTA

Economia, Corso di Laurea Magistrale in Ing. Elettrotecnica, A.A Prof. R. Sestini SCHEMA DELLE LEZIONI DELLA PRIMA SETTIMANA

1 Relazione di congruenza in Z

Un insieme si dice ben definito quando si può stabilire in modo inequivocabile se un oggetto appartiene o non appartiene a tale insieme

Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

3. Le coordinate geografiche: latitudine e longitudine

ELEMENTI DI ECONOMIA TEORIA DEI COSTI

Piano cartesiano. O asse delle ascisse

La regressione lineare. Rappresentazione analitica delle distribuzioni

SISTEMI DI NUMERAZIONE

Teoria degli Insiemi

1 Prodotto cartesiano di due insiemi 1. 5 Soluzioni degli esercizi 6

In molte applicazioni sorge il problema di sapere in quanti modi possibili si può presentare un certo fenomeno.

Appunti sulla circonferenza

Problemi con discussione grafica

L ALGORITMO DEL SIMPLESSO REVISIONATO

Statistica descrittiva in due variabili

Cap. 2 - Rappresentazione in base 2 dei numeri interi

Le equazioni di primo grado

Due numeri naturali non nulli a, b tali che MCD(a,b) = 1 si dicono coprimi o relativamente primi.

SCUOLA PRIMARIA MATEMATICA (Classe 1ª)

Geometria analitica del piano pag 12 Adolfo Scimone

Laboratorio Tecniche di valutazione dei progetti di trasporto. 2 lezione: Cos è un investimento? Prof. Ing. Gianfranco Fancello A.

Metodi di Iterazione Funzionale

Metodo di Quine-McCluskey. Algoritmo. Sommario. Sommario. M. Favalli

Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto

Autorità per le Garanzie nelle Comunicazioni

Riduzione degli schemi a blocchi

Metodi e Modelli per l Ottimizzazione Combinatoria Cover inequalities

Gara Matematica. Dipartimento di Matematica Ulisse Dini. Viale Morgagni 67/a Firenze. Soluzioni edizione 2011

Storia del pensiero matematico

percorso 4 Estensione on line lezione 2 I fattori della produzione e le forme di mercato La produttività La produzione

Per capire qual è l altezza media degli italiani è stato intervistato un campione di 1523 cittadini. La media campionaria dell altezza risulta essere:

Riconoscimento e recupero dell informazione per bioinformatica

Le coniche: circonferenza, parabola, ellisse e iperbole.

3. Problemi inversi sulle annualità. Poliannualità

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Anno 1. Teoria degli insiemi: definizioni principali

Un insieme si dice finito quando l operazione consistente nel contare i suoi elementi ha termine.

Transcript:

Loredana Cerbara

I metodi di classificazione, anche detti in inglese cluster analysis, attengono alla categoria dei metodi esplorativi. Esistono centinaia di metodi di classificazione dei dati ed hanno avuto un notevole sviluppo a partire dalla disponibilità di elaborazioni elettroniche che hanno consentito di eliminare il problema della complessità computazionale. Lo scopo della cluster analysis è quello di creare dei gruppi di unità statistiche presenti nel collettivo e su cui siano stati rilevati alcuni caratteri in modo che le unità appartenenti allo stesso gruppo siano più possibile simili tra loro e tra i gruppi ci sia la massima dissimilarità. Questo obiettivo può essere raggiunto in vari modi, e dipende anche molto dal tipo di misura di similarità o dissimilarità che si adotta. Per questo si possono immaginare molti algoritmi di classificazione, ciascuno con un risultato diverso.

L obiettivo è individuare meglio possibile la struttura dei dati. In un piano anche l occhio umano può individuare tale struttura, anche se con qualche indecisione, ma già in tre dimensioni la cosa si complica. In n dimensioni le immagini non possono essere più riprodotte e dunque è necessario ricorrere ad un algoritmo matematico per identificare i gruppi.

La situazione ottimale in cui le dimensioni sono solo due e i gruppi sono ben distinti è molto rara da ottenere. In genere, nei casi reali, abbiamo più dimensioni e più strutture nei dati. A volte i gruppi non sono affatto ben distinti, ma sono sovrapposti. In questo caso si parla di clumping, o ricopimenti, anziché di gruppi (overlapping clustering). Cioè ogni unità può appartenere a più di un gruppo. Infine, esistono metodi clustering che misurano quanto ogni unità è attratta da tutti i gruppi. Questa classificazione si chiama fuzzy clustering.

Oggetto di questo corso sono soprattutto i metodi di classificazione che restituiscono una partizione dell insieme delle unità statistiche. Secondo la teoria degli insiemi, una partizione di un insieme E non vuoto consiste nell individuazione di n insiemi C (C 1, C 2,, C n ) tali che ognuno degli insiemi C non è vuoto tutti gli insiemi C sono disgiunti tra loro, ossia non hanno elementi in comune l unione degli insiemi C restituisce l insieme E di partenza Se per insieme E intendiamo il nostro collettivo, e per insiemi C i gruppi che individuiamo con la cluster analysis, la nostra partizione sarà costituita da gruppi di unità non vuoti e tali che ogni unità appartiene ad uno ed un solo gruppo.

Come abbiamo già detto, esistono diversi tipi di algoritmi di classificazione. Solo la conoscenza di come essi agiscono e su quali principi matematici si basano può aiutare il ricercatore a scegliere il migliore algoritmo per il proprio insieme di dati. Alcuni algoritmi sono più adatti quando si hanno molte unità, altri fanno cogliere meglio la forma geometrica, che non è detto debba essere sferica, dei dati, fornendo informazioni anche su questo dettaglio. Gli algoritmi di classificazione si possono suddividere in grandi tipologie di metodi. Una distinzione può essere determinata rispetto al procedimento seguito: si chiamano algoritmi scissori, quegli algoritmi di cluster analysis che individuano i gruppi suddividendo il gruppo costituito da tutte le unità partenza; sono invece algoritmi aggregativi quelli che formano i gruppi aggregando le unità intorno a centri predeterminati.

Un altra importante distinzione riguarda il modo con cui si arriva ai gruppi finali: si distinguono gli algoritmi gerarchici, quelli cioè che arrivano alla classificazione finale per passi successivi, passando da un raggruppamento più fine a uno meno fine (algoritmi gerarchici aggregativi) o passando dal totale delle unità a gruppi costituiti da una sola unità (algoritmi gerarchici scissori); oppure gli algoritmi non gerarchici che cercano il modo migliore di raggruppare le unità in k gruppi. Generalmente gli algoritmi gerarchici vengono usati quando l insieme delle unità da classificare non è troppo numeroso, perché l algoritmo ha una forte complessità computazionale e il risultato stesso è interpretabile solo per un numero non elevato di unità. In aggiunta questo tipo di algoritmo riesce a dare informazioni dettagliate sulla dinamica della formazione dei gruppi.

In generale, per gli algoritmi gerarchici valgono le condizioni: a) sono considerati tutti i livelli di distanze d non negative. b) i gruppi che si ottengono ad un certo livello di distanza sono contengono quelli ad un livello di distanza inferiore. In pratica, un algoritmo gerarchico aggregativo, parte da una situazione in cui tutte le n unità sono suddivise in n gruppi distinti formati da una sola unità. Nel passo successivo si aggregano i gruppi per i quali la distanza tra le unità è minima, formando così un raggruppamento con un numero minore di gruppi. Si ripete il procedimento aggregando via via tutti i gruppi fino ad arrivare ad un solo gruppo contenente tutte le unità. Viceversa, per un algoritmo scissorio il procedimento è capovolto.

Una rappresentazione grafica efficace degli algoritmi gerarchici è costituita dal famoso DENDROGRAMMA. Esso mostra come si possono considerare i gruppi che man mano si formano a seconda del livello di distanza tra le unità considerate. Ma mentre la distanza tra le unità dipende solo dal particolare indice di distanza scelto, quella tra gruppi va definita in maniera specifica e, a seconda del tipo di distanza tra gruppi che si sceglie, si ottiene un diverso metodo di classficazione.

Altri dendrogrammi Metodi di classificazione

Alcuni metodi di classificazione gerarchica, distinti secondo il tipo di distanza tra gruppi scelta, sono: Metodo del legame medio: i gruppi si formano man mano che varia la distanza media tra le unità in essi comprese. Metodo del centroide: i gruppi si formano man mano che varia la distanza da un centroide ottenuto come media delle unità del gruppo Metodo della mediana: i gruppi si formano man mano che varia la distanza dalla mediana del gruppo Metodo del legame singolo: i gruppi si formano aggiungendo di volta in volta l unità più vicina ad una delle unità del gruppo già formato. Metodo del legame completo: i gruppi si formano aggiungendo di volta in volta l unità più vicina a tutte le unità già presenti nel gruppo

Metodo del legame singolo o delle unità più vicine Quando si vuole catturare la struttura dei dati ma la forma dei gruppi non è esattamente sferica, o almeno si presume che non lo sia, questo metodo è particolarmente adatto. Nella sua formulazione aggregativa si impone inizialmente che ognuna delle n unità statistiche formi un gruppo e l algoritmo termina quando tutte le unità sono raggruppate in un unico gruppo. Al passo 1 dell algoritmo si cercano le due unità meno distanti e si uniscono in un solo gruppo, lasciando invariati gli altri. Se più di una coppia presenta la distanza minima si formano più gruppi di due unità.

Metodo del legame singolo o delle unità più vicine A questo punto si ricalcola la matrice delle distanze sostituendo alle unità i gruppi appena formati. Per calcolare la distanza tra un unità e un gruppo formato da una coppia di unità i e j si assume che la distanza tra la coppia e un altra unità k sia la minore tra le distanze tra i e k e tra j e k d (i,j),k) =min(d ik ; d jk ) Analogamente, anche la distanza tra due coppie è definita come il minimo delle distanze delle unità prese a due a due d (i,j),(r,s) =min(d ir ; d is ; d jr ; d js ) Poi si continua fondendo insieme i cluster e ricalcolando di volta in volta le distanze, fino ad ottenere un unico cluster con tutte le unità iniziali.

Metodo del legame singolo o delle unità più vicine Esempio. Supponiamo di classificare con il metodo del legame singolo 5 unità la cui matrice delle distanze è esposta qui a fianco. Si individuano innanzi tutto le due unità meno distanti. Esse sono le unità a e b. Si forma pertanto la prima coppia. Si ricalcola la matrice delle distanze sostituendo alle unità a e b la coppia (a,b). La distanza di ciascuna altra unità da questa coppia è definita come la distanza minima tra a e l altra unità o b e l altra unità. Ad esempio d (a, b),c =min(d ac ; d bc )=min(6, 5)=5 d (a, b),d =min(d ad ; d bd )=min(10, 9)=9 d (a, b),e =min(d ae ; d be )=min(9, 8)=8 Questa nuova matrice delle distanze serve a ripetere il procedimento. Si individua ancora la distanza minore, che è quella tra d ed e, si forma un altra coppia e si ricalcola nuovamente la matrice delle distanze. a b c d e a 0 2 6 10 9 b 0 5 9 8 c 0 4 5 d 0 3 e 0 (a,b) c d e (a,b) 0 5 9 8 c 0 4 5 d 0 3 e 0

Metodo del legame singolo o delle unità più vicine Da questa nuova matrice si ricava ancora un gruppo, quello costituito dalle unità c, d ed e. Otteniamo ancora una matrice delle distanze. Infine, le unità rimanenti si aggregano in un unico gruppo. Graficamente abbiamo ottenuto il seguente dendrogramma: (a,b) c (d,e) (a,b) 0 5 8 c 0 4 (d,e) 0 (a,b) (c,d,e) (a,b) 0 5 (c,d,e) 0

Metodo del legame singolo o delle unità più vicine Dal dendrogramma si vede come il gruppo (a,b) sia quello che si forma per primo, cioè ad una distanza minore. Si tratta di un gruppo molto coeso, cioè composto di unità particolarmente simili tra loro. Poi si forma il gruppo (d,e) e infine si aggrega c a questo gruppo. Se tracciamo delle linee orizzontali, contando il numero di barre verticali che esse attraversano, possiamo contare il numero di gruppi che si sono formati a quel livello di distanza.

Metodo del centroide o del legame medio Anche in questo caso si procede per passi successivi a partire dalla matrice delle distanze per arrivare ad una classificazione finale. Ad ogni passo, però, cambia il modo di definire la distanza tra un gruppo ed una unità; in questo caso si definisce la distanza tra un gruppo ed una unità come la distanza tra quell unità ed una opportuna media. Se parliamo del metodo a b c d e del centroide la distanza da calcolare è quella con il centro delle unità appartenenti al gruppo; viceversa, nel metodo del a 0 2 6 10 9 legame medio si calcola la media delle distanze delle unità del b 0 5 9 8 gruppo c 0 4 5 Esempio. Supponiamo di classificare con il metodo del legame medio le unità a, b, c, d, e dell esempio precedente. Riprendiamo la matrice delle distanze già d 0 3 vista. anche in questo caso le unità più vicine sono a e b. Uniamole in un gruppo e ricalcoliamo la matrice delle distanze. e 0

Metodo del legame medio Stavolta la distanza si trova facendo una media. d (a, b),c =media(d ac ; d bc )=(6+5)/2=5,5 d (a, b),d =media(d ad ; d bd )=(10+9)/2=9,5 d (a, b),e =media(d ae ; d be )=(9+8)/2=8,5 Al passo successivo si uniscono le unità d ed e, e si calcolano di nuovo le distanze. d (a, b),(d,e) =media(d (a,b),d ; d (a,b),e )=(9,5+8,5)/2=9 d (d, e),c =media(d dc ; d ec )=(4+5)/2=4,5 Infine l unità c si aggrega al gruppo (d,e), prima dell aggregazione di tutte le unità nello stesso gruppo. Il dendrogramma in questo caso non è diverso da quello già visto prima. (a,b) c d e (a,b) 0 5,5 9,5 8,5 c 0 4 5 d 0 3 e 0 (a,b) c (d,e) (a,b) 0 5,5 9 c 0 4,5 (d,e) 0

I metodi che abbiamo visto fino ad ora sono di tipo gerarchico aggregativo e il loro risultato può essere rappresentato con un dendrogramma. Questa rappresentazione grafica però non fornisce una sola partizione dei dati, ma ne da una serie in successione. A noi rimane il problema di selezionare, attraverso l utilizzo di linee che attraversano il dendrogramma, il numero di gruppi che si desiderano ottenere. Questo è un problema aperto perché fino ad ora non sono stati ideati metodi univoci per posizionare tali linee. A volte si sceglie di tagliare in modo che i gruppi abbiano un numero di unità né eccessivamente grande né eccessivamente piccolo, ma questo dipende dal particolare caso in esame. Inoltre a volte si ricorre ad una standardizzazione dei dati originali in modo da ottenere cluster che non dipendono dalle medie dei fenomeni analizzati.

Metodi non gerarchici Sono metodi di classificazione che forniscono una partizione dei dati in un numero di gruppi che dobbiamo decidere prima di classificare i dati. DI solito anche in questo caso si tratta di algoritmi aggregativi che nei passi successivi cercano di migliorare la partizione ottenuta, ma il numero di gruppi è definito una sola volta e non cambia. L inizializzazione dell algoritmo avviene indicando g centri di partenza intorno a cui aggregare le unità. A differenza dei metodi gerarchici, l assegnazione di un oggetto ad un cluster non e irrevocabile. Ovvero le unità vengono riassegnate ad un diverso cluster se l allocazione iniziale risulta inappropriata. Anche in questo caso esistono diversi algoritmi.

Metodi non gerarchici Il metodo non gerarchico più noto è quello delle k-medie (K-MEANS). Esso considera all inizio come centri intorno a cui aggregare i gruppi, le prime k unità della matrice dei dati. Ad esse associa, formando k gruppi, le unità che si trovano più vicine a ciascuna. Poi ricalcola le medie dei gruppi e le utilizza nel secondo passo come centri intorno a cui aggregare i gruppi. In questo momento alcune unità che all inizio erano state assegnate ad un gruppo possono cambiare gruppo. L algoritmo continua fino a che nessuna unità cambia più gruppo, quindi fino a che non si raggiunge l ottimo. E da notare che talvolta questo ottimo non è l ottimo globale, cioè l algoritmo può fallire il suo obiettivo. Per questo talvolta si ripete più volte cambiando le prime k unità in modo da confrontare i risultati e prendere quelli che si verificano più volte.