La Classificazione Fisica Delle Galassie Come Problema Di Data Mining

Transcript

1 Università degli Studi di Napoli Federico II Facoltà di Scienze Matematiche Fisiche e Naturali TESI TRIENNALE IN FISICA La Classificazione Fisica Delle Galassie Come Problema Di Data Mining Relatore: Prof. Giuseppe Longo Studente: Alessandro Montalto Matr. 567/197 Anno Accademico 2007/08

2 Indice 1 Introduzione La classificazione fisica delle galassie Considerazioni sulle classificazioni Estrazione e Selezione delle caratteristiche Il Clustering Introduzione al clustering I metodi gerarchici di classificazione La valutazione della classificazione con metodi gerarchici I metodi non gerarchici di classificazione Le GTM Le PPS Un algoritmo di aspettazione-massimizzazione PPS sferiche Astroneural I Dati La Sloan Esperimenti 40 5 Alcune conclusioni 47 Bibliografia 49 1

3 Capitolo 1 Introduzione 1.1 La classificazione fisica delle galassie I primi tentativi di giungere ad una classificazione morfologica delle galassie risalgono al 1814, quando M. Wolf disegnò 17 tavole che definivano il sistema di classificazione stesso. Wolf posizionò queste forme lungo una sequenza lineare, da (g) a (w), da sistemi amorfi fino a sistemi a spirale. Il sistema era puramente descrittivo e fu rapidamente abbandonato anche perché, all epoca in cui esso fu concepito non era ancora chiara la differenza tra nebulose galattiche e nebulose extragalattiche. Pochi anni dopo, nel 1913, Reynolds misurò i profili di intensità delle regioni centrali di un tipo particolare di nebulose noto come galassie a spirale ricavando la legge empirica: I(r)(1 + x 2 ) = costante dove I(r) è il cosiddetto profilo di brillanza superficiale 1. Questo era il famoso profilo di Reynolds che Hubble (1930) più tardi generalizzò rendendolo indipendente dalla scala, sostituendo x con il rapporto r/a, dove r è la distanza radiale lungo l asse maggiore e a è un fattore di scala pari alla distanza radiale in cui la brillanza superficiale è un quarto del valore centrale. Di lì a poco, usando un campione più ampio di galassie con diversi rapporti nucleo/disco costruì una sequenza di forme con caratteristiche che cambiavano con continuità da una classe all altra. Le sette classi di Reynolds erano le seguenti (tra virgolette sono riportate le sue stesse parole): 1 Brillanza superficiale: flusso di radiazione proveniente da un elemento della superficie dell oggetto in funzione della distanza r dal centro dell oggetto stesso. 2

4 I. Spirali formate unicamente da nebulosità amorfa II. Spirali che mostrano un principio di condensazione solo nelle spire più esterne III. In questa classe le condensazioni nelle regioni più esterne avanzano considerevolmente verso il nucleo IV. Include la maggior parte delle spirali. La condensazione nebulare appare in tutte le regioni ad eccezione del nucleo, ma vi è un ambiente nebuloso più o meno cospicuo V. Stadio avanzato della Classe IV: la nebulosa è di di tipo condensato, il nucleo ha spesso limiti definiti come una nebulosa planetaria VI. Speciali tipi intermedi con anelli più esterni e con i bracci più interni in stato di condensazione VII. Spirali di tipo granulare che non presentano un nucleo definito Un ulteriore tentativo di giungere alla classificazione delle forme delle sole galassie esterne fu fatto da Shapley (1928), che inventò una classificazione basata sulla concentrazione della luce verso il centro. Shapley, però, incluse anche proprietà non intrinseche, quali la magnitudine apparente (legata alla distanza dell oggetto) e lo schiacciamento apparente (legato all inclinazione rispetto alla linea di vista), ed il sistema risultò di scarsa utilità pratica. Se si trascurano alcuni tentativi di minore imortanza, il passo successivo fu compiuto dall astronomo americano Edwin P. Hubble nel 1936, con la pubblicazione dello straordinario libro The Realm of Nebulae, che avrebbe segnato un punto di svolta nella conoscenza delle proprietà dell universo extragalattico. Hubble nella sua tesi di dottorato (1917) per l Università di Chicago aveva misurato la posizione di nebulose non galattiche (galassie) e, nel descrivere la loro forma aveva fatto uso di una variante della classificazione descrittiva di Wolf (1908) confrontando ciò che osservava con le 17 tavole che Wolf aveva disegnato. Quest esperienza lo aveva convinto dell assoluta inadeguatezza dei sistemi sin lì adottati ed indotto a cercare un sistema di classificazione più affidabile. Nel suo libro del 1936, Hubble divise il regno galattico delle galassie più lontane in ellittiche e spirali creando una relazione tra queste due classi e una continuità tra le spirali tramite la relazione tra nucleo e braccio, ponendo le galassie in insiemi di classificazione adiacenti. Le ellittiche erano oggetti con isofote 2 di forma ellittica e prive di qualsivoglia struttura interna. Hubble le suddivise in base al loro schiacciamento apparente in sottogruppi E 1,...E 7 dove il coefficiente n: n = 10(1 b/a) 2 Isofota: linea che unisce punti ad uguale brillanza superficiale. 3

5 con a e b, rispettivamente asse maggiore ed asse minore di un isofota di riferimento. Le spirali erano invece divise in due gruppi e sotto-classificate come a, b, c in base a tre criteri concorrenti. I due gruppi erano determinati dalla presenza o dall assenza di una barra stellare di forma cilindrica fuoriuscente dal nucleo, mentre i criteri erano: il rapporto tra le dimensioni del bulge centrale ed il disco; il grado di avvolgimento dei bracci; l aspetto più o meno definito dei bracci. In altri termini, un oggetto SBb veniva ad indicare una Spirale Barrata con un rapporto bulge/disco intermedio e bracci mediamente definiti. Per realizzare una distribuzione continua, Hubble ipotizzò anche l esistenza di una classe con caratteristiche intermedie tra quelle delle ellittiche e quelle delle spirali, che chiamò S0. Tale classe fu effettivamente scoperta nel Gli oggetti che non mostravano segni di simmetria facilmente riconoscibile, venivano classificati come irregolari (Irr). La classificazione introdotta da Hubble risultò essere esaustiva (il 97% delle galassie contenute nel catalogo delle galassie di Shapley-Ames risultò classificabile) e pur essendo costruita in base a criteri arbitrari pose in evidenza l esistenza di correlazioni tra morfologia e proprietà fisiche (es: il contenuto percentuale di gas e polveri, il momento angolare specifico, l età media delle popolazioni stellari...). Il principale limite della classificazione di Hubble era nella sua mancanza di generalità dovuta al fatto che essa era stata ottenuta a partire da un campione abbastanza uniforme di lastre fotografiche ottenute con il telescopio da 2.5 m di Monte Wilson. Ciò faceva sì che essa si fondasse sulle immagini delle regioni centrali (non saturate nelle immagini fotografiche) di galassie brillanti e vicine. In altri termini, essa si rivelò inadeguata a descrivere le caratteristiche di oggetti con nuclei peculiari (Es. galassie attive) oppure di bassa luminosità (galassie nane o di bassa brillanza superficiale). Inoltre, essendo basata su immagini fotografiche ottenute con lastre sensibili soprattutto alla radiazione blu, essa non coglieva i dettagli, quali regioni di formazione stellare o bande di polveri, visibili soprattutto ad altre lunghezze d onda. Basta poco per convincersi che quest ultimo fattore implica anche la non applicabilità dello schema di Hubble ad oggetti distanti. Infatti a causa del redshift, la radiazione osservata nel blu da una galassia lontana corrisponde, nel riferimento della galassia, a lunghezze d onda più corte (es. ultravioletto) e l esperienza insegna che le caratteristiche morfologiche delle galassie in questi due regimi sono affatto diverse. In altri termini, per classificare in modo omogeneo galassie a redshift diversi occorrerebbe prima costruire un sistema di classificazione ad 4

6 una certa lunghezza d onda e poi riportare le immagini di tutti gli oggetti a quella stessa lunghezza d onda rest-frame. Figura 1.1: L aspetto della galassia di Andromeda - M31, a diverse lunghezze d onda. Si notino le morfologie diverse. Ulteriori sviluppi, quali ad esempio, quelli tentati da de Vaucouleurs (1961) o da Vorontsov-Velyaminov et al. ( ), pur complicando notevolmente i criteri di calssificazione, non riuscirono a catturare la complessità delle morfologie extragalattiche e furono rapidamente abbandonati. Oggi sappiamo che le galassie sono sistemi complessi, costituiti da diverse componenti principali (bulge ellittici/triassiali, barre cilindriche, dischi esponenziali e dischi spessi, aloni sferoidali, nuclei attivi, etc.) che per di più evolvono nel tempo (e quindi con la distanza dall osservatore). Una tale complessità implica che ad una classificazione basata su criteri puramente morfologici occorre sostituire un sistema di classificazione basato su criteri fisici, oggettivi e facilmente misurabili. 1.2 Considerazioni sulle classificazioni Mentre il primo passo di ogni classificazione in un campione omogeneo di oggetti consiste nello stabilire una relazione di ordine di natura qualitativa 5

7 R(p 1,..., p n ) dipendente da n parametri che rappresentano quantità osservabili, lo scopo ultimo è quello di generare una tassonomia fisica, cioè una catalogazione di oggetti sulla base di proprietà e fenomeni fisici. In generale, una tassonomia può essere ottenuta se e solo se gli osservabili scelti come parametri, determinando il valore della relazione di ordine R(p 1,..., p n ), riflettono il più possibile una o più leggi fisiche L 1,..., L m. La validità di una classificazione tassonomica può essere testata valutando la sua capacità di formulare nuove previsioni riguardanti osservabili non direttamente connessi alla relazione di ordine considerata e che possono essere spiegati dalle stesse leggi fisiche L 1,..., L m. La correttezza di ogni tentativo di classificazione dipende dalla disponibilità di un campione omogeneo di oggetti, le cui quantità osservabili siano state misurate nelle stesse condizioni e dalla omogeneità del materiale usato per la classificazione: è di grande importanza, in particolare per la classificazione astronomica, che siano specificati correttamente l intervallo di lunghezza d onda all interno del quale gli oggetti sono osservati, le condizioni osservative e le caratteristiche peculiari dell apparato osservativo usato per la raccolta dei dati. Resta ora da stabilire: come si definisce l omogeneità; come si definiscono matematicamente i parametri o predicati; cosa rende buona o cattiva una classificazione. Sia S = x 1,..., x n l insieme degli oggetti da classificare. Una classificazione è una partizione S = S 1,..., S m tale che m S j = S con m n e js j j=1 Per una classificazione ideale dovrebbe anche valere: S j S k = j k Le classi S j sono definite dai parametri o predicati p j,l con l = 1, L definiti in S j : x i S j l, p j,l (x i ) = V ero A questo punto ci si chiede se: è necessaria oppure solo auspicabile l uniformità dei predicati (cioè se i predicati devono essere gli stessi per ogni S j ); il fatto che i predicati siano deducibili in base ad una ben precisa proprietà misurabile non ridefinisca automaticamente S come l insieme degli oggetti in cui i p sono misurabili. 6

8 Requisiti Devono essere in numero ridotto Facilmente misurabili sui dati a disposizione Non devono portare a risultati contraddittori Devono, in prima approssimazione riflettere qualche criterio fisico sottostante (anche se al momento sconosciuto) Svantaggi Aumentare il numero dei parametri riduce l utilità della classificazione La classificazione di un oggetto non deve richiedere più tempo di quanto ne prenderebbe uno studio dettagliato Lo stesso oggetto verrebbe ad essere attribuito a classi diverse Si provi a classificare le specie animali in funzione del colore del mantello I problemi che si incontrano nella classificazione morfologica delle galassie, in una prospettiva generale, sono i seguenti: nelle galassie sono presenti diverse componenti: bracci di spirali, bulges, anelli, lenti, dischi, etc. Queste componenti, visibili in diverse combinazioni e inclinazioni, sono all origine della complessità e delle ambiguità che si riscontrano nella morfologia delle galassie. le galassie coprono un grande intervallo di brillanza superficiale, luminosità e altre proprietà globali, così che gli effetti di selezione sono sempre importanti poiché essi potrebbero condizionare l attendibilità statistica dei campioni di oggetti usati per la classificazione. l ambiente è importante per determinare la forma delle galassie, poiché si riscontra che le distribuzioni dei vari tipi morfologici differiscono significativamente a seconda che ci si trovi nel campo o in ambienti molto densi (quali ad esempio, gli ammassi ricchi). gli eventi dinamici su scale di tempo relativamente brevi possono portare, da una parte, alla possibile evoluzione di rare forme transienti, dall altra, potrebbero essere responsabili della formazione di alcuni dei più comuni tipi morfologici. In questo senso, questi eventi possono allo stesso tempo confondere o semplificare il complesso problema della classificazione morfologica delle galassie. L obiettivo primario degli studi morfologici è quindi quello di fornire vincoli osservativi ad un ampia casistica di problemi legati alle modalità di formazione ed evoluzione delle galassie e delle strutture cosmiche quali, ad esempio: 7

9 gli effetti dell ambiente sulle galassie; la formazione dei clusters; l evoluzione delle strutture cosmiche; i fattori fisici che hanno determinato i vari tipi al tempo della formazione delle galassie. Da un punto di vista metodologico, l obiettivo di ogni classificazione fisica è quello di ridurre la complessità e di correggere gli aspetti fuorvianti della classificazione morfologica. In questa tesi si affronta con un approccio diverso (e preliminare) il problema di come correlare gli indicatori morfologici con le proprietà intrinseche delle galassie, ricorrendo al data mining che, per essere affidabile, ha bisogno di una grande quantità di dati. L obiettivo primario del data mining è infatti quello di estrarre modelli e caratteristiche interessanti da una grande quantità di dati solitamente in uno spazio ad alta dimensione: Spazio dei parametri, P N. In questo spazio (Fig. 1.2) N-dimensionale, ogni dimensione è definita da un osservabile, cioè da una ben precisa quantità astronomica misurabile a partire da immagini, spettri o qualunque altro tipo di dato astronomico. Si avranno, quindi, un asse per la lunghezza d onda, un asse per la polarizzazione, un altro per il flusso integrato, un altro ancora per la brillanza superficiale, un altro per la risoluzione angolare, etc. In questa approssimazione, si sta supponendo che ad ogni misura sia associabile una quantità numerica e, quindi, P N R N. Si noti che una qualsiasi osservazione o è sempre caratterizzata da più quantità (ad esempio, la misura di un flusso è associabile ad una ben precisa lunghezza d onda, ad un epoca di osservazione, ad un tempo di campionamento, ad una risoluzione angolare, etc.) e, quindi, è un punto appartenente a R m con m N. Un osservazione, quindi, è sempre un informazione incompleta che definisce in P N una varietà di ordine N m. È evidente che ogni oggetto, essendo identificato dalle due coordinate proiettate sulla sfera celeste, definirà un sottospazio O N 2 di P N. In teoria, una conoscenza accurata delle proprietà osservative dell Universo richiederebbe un campionamento uniforme e fitto di tutto P N. Purtroppo, invece, l insieme delle osservazioni astronomiche disponibili popola questo spazio in modo molto disomogeneo: una grandissima concentrazione di punti, ad esempio, cade nell ipervolume definito da: lunghezza d onda compresa tra 3300 e 8000 A; risoluzione angolare compresa tra 0.8 e 2 ; tempo di integrazione della radiazione compreso tra 10 s e 3600 s; magnitudine (flusso) compresa tra 14.0 e 20.0; brillanza superficiale tra 24 e Si noti che questo ipervolume marca la regione dello spazio dei parametri corrispondente alle osservazioni effettuate a lunghezze d onda visibili. 8

10 Figura 1.2: Rappresentazione schematica dello spazio dei parametri. Ci sono tre problemi pratici e teorici per cui non si può lavorare direttamente con spazi ad alta dimensione: 1. Visualizzazione: la visualizzazione è possibile in, al più, tre dimensioni. Essa è molto utile per ottenere una comprensione preliminare dei dati ed è usata spesso nell analisi dei dati. Però questa è anche un arma a doppio taglio: possono essere commessi giudizi errati se non si presta la dovuta attenzione alla rappresentazione dei dati dello spazio originario ad alta dimensione nello spazio a dimensione minore. 2. Risorse limitate: oggi si immagazzinano più dati di quanti se ne possano estrarre. Questo porta ad un collo di bottiglia computazionale dovuto a due fattori: gran numero di campioni (N) e di dimensioni (D). Il problema del numero dei campioni può essere aggirato tramite campionatura. Anche tale procedura può però risultare inadeguata. Quindi può essere necessario aumentare l efficienza computazionale grazie alla riduzione della dimensione. 3. Problema della dimensione: in una situazione ideale dove si può accedere ad una quantità infinita di dati campione, avere più dimensioni è equivalente a processare più informazione. Infatti è stato mostrato che per i problemi di classificazione l informazione dovuta a dimensioni aggiuntive non può abbassare la stima di Bayes che è il limite superiore teorico per l accuratezza della classificazione. Si noti che questo risultato teorico assume implicitamente l esistenza di un numero di campioni esponenzialmente grande rispetto alla dimensione. 9

11 Sfortunatamente nella pratica il numero di campioni è quasi sempre sparso rispetto alla dimensione, ed è tra le maggiori cause di errore nella funzione di approssimazione, stima della densità, e classificazione. Figura 1.3: I dati in spazi ad alta dimensione si dispongono in periferia. Figura 1.4: I dati sono sempre sparsi in spazi ad alta dimensione. I primi due punti sono pratici e possono essere spesso aggirati, rispettivamente, usando semplici proiezioni ortogonali (e.g. Principal Component Analysis) e algoritmi a complessità più bassa (rispetto alla dimensione e alla grandezza del campione). Quindi l interesse finale e maggiore è un misto tra teoria (geometria ad alta dimensione) e pratica (non molti campioni), che non ha una soluzione semplice. Il problema della dimensionalità è la motivazione principale che porta alla riduzione della dimensione poiché, contrariamente a quanto si possa pensare, dati distribuiti casualmente in uno spazio ad alta dimensione tendono: 1. ad addensarsi alla periferia dello spazio dei campioni e, 2. ad essere sparsi, per molti problemi pratici. 10

12 1.2.1 Estrazione e Selezione delle caratteristiche Ci sono due approcci generali alla riduzione della dimensione, chiamati estrazione delle caratteristiche e selezione delle caratteristiche (conosciuto anche come selezione delle variabili o selezione di un sottoinsieme di caratteristiche). L estrazione delle caratteristiche trasforma (linearmente o non linearmente) i dati originali in uno spazio a dimensione più bassa usando tutte le variabili originarie (dimensioni). La selezione delle caratteristiche, che è un caso speciale di estrazione delle caratteristiche lineare, seleziona un sottoinsieme di variabili dall insieme delle caratteristiche originarie e scarta le rimanenti. Ogni metodo richiede un criterio predefinito per la valutazione della bontà della trasformazione. Inoltre il criterio specifica anche il metodo: supervisionato o non supervisionato. 11

13 Capitolo 2 Il Clustering 2.1 Introduzione al clustering Si parlerà ora specificamente delle metodologie di classificazione delle unità statistiche in gruppi, detti anche clusters. Queste metodologie, note come cluster analysis, sono i più noti metodi descrittivi di data mining. L obiettivo della cluster analysis, data una matrice dei dati X composta da n osservazioni (righe) e p variabili (colonne), è quello di raggruppare le unità statistiche in gruppi il più possibile omogenei al loro interno (coesione interna) ed eterogenei tra di loro (separazione esterna). Si noti che la costituzione di gruppi omogenei di unità statistiche può essere interpretata come una riduzione della dimensione dello spazio R n, tuttavia completamente differente da quanto accade, per esempio, con il metodo delle componenti principali. Infatti, nei metodi di raggruppamento le n unità vengono riunite in g sottoinsiemi (e solitamente g < n), mentre nell approccio delle componenti principali le p variabili statistiche vengono trasformate in k nuove variabili (con k < p). Vi sono numerosi modi per effettuare un analisi di raggruppamento. Pertanto, prima di effettuare l analisi, deve esserci una chiara definizione dei modi in cui essa viene svolta. In particolare, le scelte da effettuare dovranno riguardare i seguenti punti: la scelta delle variabili da utilizzare: la scelta delle variabili da utilizzare per la classificazione deve tener conto di tutti gli aspetti rilevanti per il conseguimento degli obiettivi prefissati e, quindi, di tutte le variabili necessarie a tal fine, tenendo presente che l utilizzo di variabili poco significative porta inevitabilmente a un peggioramento dei risultati. Questa scelta è un problema cruciale perché condizionerà fortemente il risultato finale. In generale si può affermare che una classificazione può considerarsi soddisfacente quando non mostra un eccessiva sensibilità a piccoli cambiamenti dell insieme di variabili utilizzate. Dal 12

14 punto di vista della scelta delle variabili è opportuno, prima di effettuare una cluster analysis, effettuare indagini esplorative accurate, che possono fra l altro suggerire possibili configurazioni finali per la classificazione. Inoltre, al fine di potere meglio visualizzare e, pertanto, interpretare, il risultato della cluster analysis, è spesso opportuno ridurre la dimensionalità della matrice dei dati, per esempio mediante il metodo delle componenti principali. Si sottolinea infine, di prestare particolare attenzione, nella fase esplorativa, alla individuazione di osservazioni anomale che potrebbero inficiare notevolmente i risultati dell analisi. Da questo punto di vista si potrebbero associare i metodi di cluster analysis a quelli di ricerca degli outliers. Sebbene vi siano notevoli similitudini tra i due concetti, la differenza principale ricade sulla motivazione dell analisi effettuata: se si vuole effettuare una classificazione di tutte le unità (cluster analysis) piuttosto che la ricerca di osservazioni anomale (ricerca degli outliers); il metodo di formazione dei gruppi: a questo proposito si distinguono metodi gerarchici e metodi non gerarchici. I metodi gerarchici consentono di ottenere una successione di raggruppamenti (detti partizioni) con un numero di gruppi da n a 1, partendo dal più semplice in cui tutte le unità sono distinte, fino a quello in cui tutti gli elementi appartengono a un unico gruppo. I metodi non gerarchici permettono invece di raggruppare le n unità statistiche in un numero di gruppi fissato (soggettivamente) a priori; l indice di prossimità da utilizzare: a seconda della natura delle variabili a disposizione, deve solitamente essere definita una misura di prossimità fra le unità statistiche, da utilizzare per calcolare la matrice delle distanze fra di esse. Se le variabili sono prevalentemente quantitative, si ricorrerà alla distanza euclidea; se sono prevalentemente qualitative a un indice di similarità; infine, se i dati sono aggregati in tabelle di contingenza, si ricorrerà alla distanza del chi-quadro fra le modalità. Poiché le più diffuse misure di prossimità possono essere ricondotte a delle distanze, nel seguito si farà riferimento a questo concetto. Si sottolinea nuovamente l importanza di una eventuale normalizzazione delle variabili, per evitare che alcune pesino più di altre nella determinazione dei risultati finali. Oltre a stabilire una misura di prossimità fra le unità statistiche, è necessario stabilire, nel caso dei metodi gerarchici, come verrà calcolata la prossimità fra i gruppi ottenuti nelle diverse fasi della procedura. Stante l opportunità di utilizzare, come distanza tra i gruppi, lo stesso tipo di distanza utilizzata per calcolare la distanza fra le unità statistiche, è necessario stabilire quali unità (o sintesi di esse) utilizzare come rappresentative 13

15 del gruppo. Come si vedrà, i metodi di classificazione gerarchica si differenziano, in particolare, per questo ultimo tipo di scelta; la determinazione dei criteri di valutazione dei gruppi ottenuti: valutare il risultato di raggruppamento ottenuto significa verificare che i gruppi siano coerenti con l obiettivo primario della cluster analysis e che soddisfino quindi le condizioni di coesione interna e separazione esterna. Di fondamentale importanza è, a tal fine, la scelta del numero dei gruppi. Vi è un trade-off fra l ottenimento di gruppi omogenei, caratteristica che è tipicamente funzione crescente del numero dei gruppi scelto, e la necessità di ottenere una rappresentazione parsimoniosa, che richiede, al contrario, un numero ridotto di gruppi. 2.2 I metodi gerarchici di classificazione I metodi di classificazione gerarchici permettono di ottenere una famiglia di partizioni, ciascuna associata ai successivi livelli di raggruppamento fra le unità statistiche, calcolati sulla base dei dati a disposizione. Le diverse famiglie di partizioni possono essere rappresentate graficamente, mediante una struttura ad albero, detto albero di classificazione gerarchica o dendrogramma. Tale struttura associa a ogni passo della procedura gerarchica, che corrisponde a un numero g fissato di gruppi, una e una sola classificazione delle unità statistiche in g gruppi. Figura 2.1: La struttura del dendrogramma 14

16 Graficamente un albero di classificazione gerarchica può essere rappresentato come in figura nella quale, per semplicità, si suppone vi siano solamente 5 unità statistiche a disposizione, numerate da 1 a 5. Come si evince dalla rappresentazione schematica in figura, i rami dell albero descrivono classificazioni successive delle unità statistiche. Alla radice dell albero, tutte le unità statistiche sono contenute in una sola classe. Le successive divisioni in rami individuano divisioni successive delle unità in clusters. Infine, i rami terminali indicano la partizione finale delle unità statistiche, in cui ogni osservazione appartiene a un gruppo separato. Se la formazione dei gruppi avviene dai rami alla radice (in figura da sinistra verso destra), vale a dire, se si parte dalla situazione in cui ogni unità statistica appartiene a un gruppo a sé stante e si procede a un raggruppamento di tali unità, i metodi di classificazione gerarchica vengono detti agglomerativi. Invece, se la costruzione dei clusters avviene dalla radice ai rami dell albero i corrispondenti metodi gerarchici vengono detti scissori. I software statistici disponibili solitamente forniscono l intero dendrogramma, dalla radice fino a un numero di rami terminali pari al numero di osservazioni. Si tratterà quindi di scegliere il numero ottimale di gruppi. Ciò identificherà il risultato della cluster analysis, dal momento che, in un dendrogramma, la scelta del numero g di gruppi identifica in modo univoco una partizione delle unità statistiche. Per esempio, le possibili partizioni delle 5 unità statistiche descritte nel dendrogramma in figura possono essere rappresentate nella seguente tabella Numero dei clusters Clusters 5 (1)(2)(3)(4)(5) 4 (1, 2)(3)(4)(5) 3 (1, 2)(3, 4)(5) 2 (1, 2)(3, 4, 5) 1 (1, 2, 3, 4, 5) Dall esempio si nota un fatto generale: le successive partizioni identificate da un dendrogramma sono nidificate. Ciò significa che, nei metodi gerarchici, gli elementi che vengono uniti (o divisi) a un certo passo resteranno uniti (o divisi) fino alla fine del processo di classificazione. Con riferimento alla tabella, e supponendo di considerare un metodo agglomerativo, che procede da una partizione di 5 a una di 1 gruppo, le unità (1, 2), unite al secondo passo, rimangono nello stesso gruppo fino al termine della procedura. Questo modo di procedere ha il vantaggio di ridurre il numero di partizioni da confrontare, rendendo la procedura computazionalmente più efficiente, ma anche lo svantaggio di non poter correggere errori di classificazione commessi nei passi precedenti. Un algoritmo agglomerativo di classificazione è il seguente: 15

17 1. Inizializzazione: date n unità statistiche da classificare, ogni elemento rappresenta un gruppo (si hanno, in altri termini, n clusters). I clusters più vicini verranno indicati con un numero che va da 1 a n; 2. Selezione: vengono selezionati i due clusters più vicini rispetto alla misura di prossimità fissata inizialmente. Per esempio, rispetto alla distanza euclidea; 3. Aggiornamento: si aggiorna il numero dei clusters (che sarà pari a n 1) attraverso l unione, in un unico cluster, dei due gruppi selezionati nel punto precedente. Conseguentemente, si aggiorna la matrice delle distanze, sostituendo, alle due righe (colonne) di distanze relative ai due clusters, nei confronti di tutti gli altri, una sola riga di distanze, rappresentativa del nuovo gruppo. I metodi agglomerativi differiscono per il modo in cui viene definita tale rappresentatività; 4. Ripetizione: si eseguono i passi (2) e (3) n-1 volte; 5. Arresto: la procedura si arresta quando tutti gli elementi vengono incorporati in un unico cluster. Come accennato al punto 3, in base ai diversi modi in cui vengono calcolate le distanze fra il gruppo neo-formato e le altre unità statistiche, si distinguono diversi metodi gerarchici di classificazione. Si introdurranno ora con riferimento a due gruppi C 1 e C 2. Anzitutto è necessario distinguere fra i metodi che richiedono esclusivamente, come input, la matrice di distanza, e i metodi che richiedono anche la matrice dei dati. Esempi del primo tipo sono i seguenti: metodo del legame singolo (single linkage): la distanza tra due gruppi è definita come il minimo delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo, C 1 e ciascuna delle unità dell altro gruppo, C 2. Si ha che: d(c 1, C 2 ) = min(d rs ) con r C 1, s C 2 metodo del legame completo (complete linkage): la distanza tra due gruppi è definita come il massimo delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo: d(c 1, C 2 ) = max(d rs ) con r C 1, s C 2 metodo del legame medio (average linkage): la distanza tra due gruppi è definita come la media aritmetica delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo: 16

18 d(c 1, C 2 ) = 1 n 1 n 2 n 1 n 2 (d rs ) con r C 1, s C 2 r=1 s=1 I principali metodi gerarchici che, oltre alla matrice delle distanze, utilizzano anche la matrice dei dati di partenza sono invece i seguenti: metodo del centroide: la distanza tra due gruppi C 1 e C 2 di numerosità n 1 e n 2 è definita come la distanza (di un certo tipo) tra i rispettivi centroidi (medie aritmetiche), x 1 e x 2 : d(c 1, C 2 ) = d( x 1, x 2 ) Evidentemente, il calcolo del centroide di un gruppo di unità richiede i dati originali, disponibili, per esempio, nella matrice dei dati. Si noti che, fusi due gruppi, sarà necessario sostituire alle distanze riguardanti i centroidi dei precedenti clusters le distanze riguardanti il centroide del nuovo gruppo. Si noti che, a seguito della proprietà delle medie aritmetiche, quest ultimo può essere calcolato in funzione dei centroidi dei due gruppi di partenza: x 1 n 1 + x 2 n 2 n 1 + n 2 Il metodo del centroide e il metodo del legame medio presentano delle analogie: il metodo del legame medio considera la media delle distanze tra le unità di ciascun gruppo, e in seguito misura le distanze tra di esse. metodo di Ward: questo metodo minimizza, nella scelta dei gruppi da aggregare, una funzione obiettivo che parte dal presupposto che una classificazione ha lo scopo di creare gruppi che rispettino la massima coesione interna e la massima separazione esterna. Precisamente, la Devianza totale (T) delle p variabili, corrispondente a n volte la traccia della matrice dei dati, viene scomposta in due parti: la Devianza nei gruppi (W, da Within groups) e la Devianza tra i gruppi (B, da between groups): T = W + B In termini formali, data una partizione in g gruppi: la devianza totale delle p variabili (T) corrisponde alla somma delle devianze delle singole variabili rispetto alla corrispondente media generale x s : p n T = (x is x s ) 2 s=1 i=1 17

19 la devianza nei gruppi (W) è data dalla somma delle devianze di gruppo: g W = k=1 dove W k rappresenta la devianza delle p variabili nel gruppo k-esimo (di numerosità n k e centroide x k = [ x 1k,..., x pk ]), descritta dalla seguente espressione: W k p n k W k = (x is x sk ) 2 s=1 i=1 infine, la devianza fra i gruppi, B, è data dalla somma (calcolata su tutte le variabili) delle devianze (ponderate) delle medie di gruppo rispetto alla corrispondente media generale: p g B = n k ( x sk x s ) 2 s=1 k=1 Avendo introdotto la scomposizione della devianza, si può affermare che, nel metodo di Ward, a ogni passo della procedura gerarchica si aggregano tra loro i gruppi che comportano il minor incremento della devianza nei gruppi, W (e, quindi, maggior incremento di B), ovvero consentono di ottenere la maggiore coesione interna possibile (e, quindi, la maggiore separazione esterna possibile). Si noti che il metodo di Ward non richiede il calcolo preliminare della matrice delle distanze. Tuttavia il metodo di Ward si può ricondurre a una variante del metodo del centroide, che invece richiede il calcolo della matrice di distanze. Nella scelta delle funzioni di distanza tra i gruppi non c è un metodo che possa dare il risultato più qualificato con ogni tipo di dati. Il suggerimento è allora quello di sperimentare le diverse alternative e confrontarle in termini di criteri di valutazione possibilmente neutrali. Infine, riguardo agli algoritmi di classificazione scissori: sono meno utilizzati nelle applicazioni abituali poiché sono tipicamente più intensivi dal punto di vista computazionale. Comunque, sebbene una semplice implementazione dei metodi divisivi richiede il calcolo di n 2 distanze alla prima iterazione, le divisioni successive sono effettuate su clusters di dimensioni molto più piccole. Inoltre, implementazioni efficienti non calcolano tutte le distanze ma solo quelle che sono ragionevoli candidate a essere le più vicine. 18

20 2.3 La valutazione della classificazione con metodi gerarchici Con un algoritmo gerarchico si ottiene una famiglia di partizioni delle n unità statistiche di partenza, o meglio una successione di n classificazioni delle suddette unità, con un numero di gruppi via via decrescente da n a 1. Per verificare che le partizioni conseguano l obiettivo primario della cluster analysis, secondo il quale i gruppi ottenuti devono essere caratterizzati da coesione interna e separazione esterna, a ogni passo della procedura gerarchica viene valutata la bontà della corrispondente partizione ottenuta, in modo tale da poter scegliere quale sia la più consona al raggiungimento degli obiettivi dell analisi. Un primo criterio intuitivo è la misurazione della prossimità dei gruppi uniti a ogni passo, che può suggerire di arrestare il processo quando tale misura sale bruscamente. Un criterio di giudizio più frequentemente utilizzato è quello basato sulla scomposizione della devianza totale delle p variabili, illustrata con riferimento al metodo di Ward (T = W +B): in base a tale metodo si definisce valida una classificazione caratterizzata da una bassa devianza entro i gruppi (W) e da un elevato valore della devianza fra i gruppi (B). Nel caso di una partizione costituita da g gruppi un indice sintetico che misura la corrispondenza a tale criterio è il seguente: R 2 = 1 W T = B T Per quanto detto precedentemente, l indice R 2 [0, 1]; se il valore di R 2 è prossimo a 1, significa che la corrispondente partizione è ottimale, poiché le unità statistiche appartenenti ai medesimi gruppi sono molto simili tra loro e i gruppi sono ben separati. In altri termini, in questo caso si avrà che W k = 0, per ogni k = 1... g e, quindi, T = B. Analogamente, la bontà dell analisi di classificazione diminuisce se R 2 è prossimo a 0. Si noti che R 2 = 0 quando vi è un solo gruppo e R 2 = 1 quando ci sono tanti gruppi quante osservazioni. È evidente che, al crescere del numero di gruppi, aumenta l omogeneità dei gruppi stessi (essendo formati da un numero inferiore di unità statistiche), e allo stesso modo cresce R 2. Ciò tuttavia va a scapito della parsimonia della classificazione che, in generale, dovrebbe essere una delle finalità principali di una valida analisi statistica. Pertanto, la massimizzazione di R 2 non può costituire l unico criterio su cui basarsi per la definizione del numero ottimale dei gruppi. Tale criterio infatti condurrebbe a una classificazione costituita da n gruppi formati da una sola unità (tale per cui R 2 = 1). È possibile costruire anche una versione inferenziale del criterio di Ward. Tale criterio è denominato pseudo-f e misura il rapporto tra la varianza tra 19

Vedere altro