Analisi dei Gruppi con R

Transcript

1 Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi dei Gruppi con R Francesca Marta Lilja Di Lascio francesca.dilascio@unibo.it Facoltà di Scienze Statistiche Università di Bologna 1

2 Outlines 1. Idee base e obiettivo dell analisi dei gruppi 2. Preparazione del proprio ambiente di lavoro e del dataset 3. Analisi dei gruppi con il metodo delle k medie 3.1 Il metodo delle k medie in R: la funzione kmeans 3.2 Applicazione in R (3/3) 4. Analisi dei gruppi gerarchica aggregativa 4.1 I metodi gerarchici in R: la funzione hclust 4.2 La funzione dist 4.3 L argomento method di hclust 4.4 Applicazione in R (3/3) 5. Osservazioni conclusive 2

3 1. Idee base e obiettivo dell analisi dei gruppi I metodi di classificazione sono metodi di analisi statistica multivariata utili a identificare insiemi di unità statistiche il più simili tra di loro. Il significato del concetto di somiglianza tra due unità dipende dal tipo di misura che si usa che dipende, a sua volta, dal tipo di variabili con cui si lavora: 1. per variabili quantitative: metrica di Minkowski (include la distanza euclidea e la distanza di Manhattan); 2. per variabili qualitative: coefficiente di Jaccard, coefficiente semplice,..; 3. per variabili di diversa natura: indice di Gower. Sulla base della misura scelta si crea la matrice di prossimità tra coppie di elementi da classificare che vengono inseriti nello stesso cluster in base al metodo di classificazione scelto: 1. partitivo: metodo delle k medie; 2. gerarchico: 2.1 scissorio: metodo di Edwards e Cavalli-Sforza; 2.2 aggregativo: metodo del legame singolo, del legame completo, del centroide, del legame medio, di Ward. 3

4 2. Preparazione del workspace e dei dati Copiare il file iris sp.dat dalla rete alla cartella: c://temp (o ad una sua sottocartella, ad es. AnGruppi ) Aprire la console di R e cambiare directory di lavoro direttamente dalla console di R digitando: setwd("c://temp//angruppi"); check digitando getwd() Il file iris sp.dat contiene i punteggi rilevati su 150 fiori relativi a 4 caratteristiche ritenute importanti per stabilire la specie di appartenenza del fiore. Caricare il file di dati: dati <- read.table("iris_sp.dat",sep=",",dec=".",header=t) Guardare come è fatto il dataset: dim(dati); dati[1,]; summary(dati) L obiettivo è identificare dei sottoinsiemi omogenei di dati che siano diversi tra loro. 4

5 3. Analisi dei gruppi con il metodo delle k medie Il metodo multivariato per individuare partizioni di unità statistiche in un prefissato numero k di clusters è riconducibile all insieme delle procedure delle k medie: ogni unità viene assegnata al cluster che ha, rispetto a tutti gli altri clusters, il centroide ad essa più vicino; il centroide di un cluster è il vettore delle medie delle variabili osservate sulle unità appartenenti a quel gruppo. La distanza su cui si basa tale metodo è la ben nota distanza euclidea. L algoritmo su cui si basa tale metodo è un algoritmo iterativo che, ad ogni passo, minimizza la somma delle distanze (al quadrato) degli n punti dal centroide del cluster di appartenenza. Il vettore dei centroidi iniziali viene selezionato casualmente o può essere scelto dall utente. È buona norma applicare il metodo (per uno stesso fissato numero di gruppi k) utilizzando diversi centroidi iniziali e scegliere il raggruppamento che presenta la minore somma delle devianze entro i gruppi. 5

6 3.1 Metodo delle k medie in R: la funzione kmeans La funzione kmeans permette di eseguire l analisi dei gruppi basata sul metodo delle k medie. I suoi argomenti sono nella seguente linea di comando: in cui: kmeans(x, centers, iter.max = 10, nstart=1, algorithm=c("hartigan-wong", "Lloyd", "Forgy", "MacQueen")) - x è una matrice di dati numerici o un oggetto che può essere letto come tale (per es. è un vettore o un data frame con colonne numeriche); - centers è il numero di clusters che si vogliono identificare o è un vettore di lunghezza pari al numero di clusters che contiene i valori dei centroidi iniziali (distinti). Se è un numero, allora un insieme casuale di righe distinte in x viene selezionato e usato come centers; - iter.max è il numero massimo di iterazioni permesse; - nstart è il numero di insiemi casuali sui quali far costruire la partizione; viene selezionata quella che minimizza il criterio in questione (è utilizzabile se centers è un numero); - algorithm è un character che indica il tipo di algoritmo di ottimizzazione che vogliamo usare per l analisi dei gruppi. 6

7 3.2 Applicazione in R 1/3 Utilizzare la funzione kmeans per identificare 3 clusters all interno del seguente dataset dati1 : dati1 <- dati[,1:2] dim(dati1) k1 <- kmeans(dati1, centers=3, iter.max=20, algorithm="hartigan-wong") k1 summary (k1) k1$size; k1$cluster;... L output è una lista che contiene le seguenti componenti: 1. cluster: un vettore di interi che indica il cluster di appartenenza di ogni osservazione; 2. centers: una matrice che contiene i centroidi dei clusters; 3. withinss: la somma dei quadrati delle distanze calcolate in ogni cluster; 4. size: il numero di osservazioni interne ad ogni cluster. Per una rappresentazione sintetica del raggruppamento ottenuto, digitare: table(k1$cluster) 7

8 3.2 Applicazione in R 2/3 Rappresentare graficamente i clusters generati mediante il metodo delle k medie: plot(dati1, col=k1$cluster) points(k1$centers, col=1:3, pch=8, cex=3) Osservazione 1.: Provare ad eseguire nuovamente l analisi diminuendo il numero di iterazioni: k2 <- kmeans(dati1, centers=7, iter.max=2, algorithm="hartigan-wong") k2 Osservazione 2.: Provare ad eseguire nuovamente il metodo delle k medie ponendo uguale a 2 il numero di clusters: k3 <- kmeans(dati1, centers=2) k3 x11() plot(dati1, col=k3$cluster) points(k3$centers, col=1:2, pch=8, cex=3) Notare che non sapere a priori il corretto numero di gruppi da identificare costituisce uno svantaggio di tale metodo. 8

9 3.2 Applicazione in R 3/3 Rappresentare graficamente l andamento della somma degli scarti al quadrato calcolati entro i gruppi al variare del numero dei clusters al fine di determinare il miglior numero di clusters: n <- nrow(dati1) wss <- rep(0,10) wss[1] <- (n-1)*sum(apply(dati1,2,var)) for(i in 2:10){ wss[i] <- sum(kmeans(dati1,iter.max=20,centers=i)$withinss) } plot(1:10,wss,type="b",xlab="number of groups", ylab="within groups sum of squares") Qual è il numero di clusters più appropriato? Notare che abbiamo utilizzato una nuova funzione di R: apply. 9

10 4. Analisi dei gruppi gerarchica aggregativa I metodi gerarchici aggregativi permettono di individuare raggruppamenti concatenati di unità statistiche (a partire da matrici di dimensioni contenute): una nuova unità viene accorpata alla/e precedenti se è la più vicina/simile ad esse. La distanza tra le unità statistiche può essere calcolata mediante diverse misure di distanza. Le dissimilarità tra i clusters possono essere calcolate mediante diversi metodi: la combinazione distanza/metodo più semplice è il quadrato della distanza euclidea e il metodo del centroide, caso in cui le dissimilarità tra i clusters sono calcolate come distanze euclidee al quadrato tra le medie dei clusters. Lo strumento grafico per visualizzare i raggruppamenti ai vari steps è il dendrogramma, un diagramma ad albero che, selezionato in qualunque livello di dissomiglianza, dà una partizione degli oggetti (in gruppi disgiunti). 10

11 4.1 Metodi gerarchici aggregativi in R: la funzione hclust Il comando hclust permette di eseguire l analisi dei gruppi basata sui metodi gerarchici aggregativi. I suoi argomenti sono nella seguente linea di comando: in cui: hclust(d, method="complete", members=null) - d è una matrice di dissimilarità come prodotta dalla funzione dist (per i dettagli ved. slide 4.2); - method permette di scegliere il tipo di metodo aggregativo che si vuole usare; può essere: ward, single, complete, average, mcquitty, median o centroid ; - members è NULL o un vettore di lunghezza pari a d che dà il numero di osservazioni per cluster; è utile se si vuole inizializzare l algoritmo di classificazione nel mezzo del dendrogramma. 11

12 4.2 La funzione dist L oggetto su cui R realizza l analisi dei gruppi gerarchica (aggregativa) è l oggetto creato dalla funzione dist. La linea di comando per creare tale oggetto è la seguente: in cui: dist(x, method="euclidean", diag=false, upper=false, p=2) - x è la matrice di dati o un oggetto data frame; - method permette di decidere il tipo di distanza su cui basare il calcolo; può essere euclidean, maximum, manhattan, canberra, binary o minkowski ; - diag assume valori logici che indicano se la diagonale della matrice delle distanze deve essere stampata per mezzo di print.dist; - upper assume valori logici per decidere se si vuole visualizzare la matrice di dissomiglianza in forma triangolare superiore; - p è il valore del potere della distanza di Minkowski. Si noti che method="binary" corrisponde al complemento a uno dell indice di Jaccard. 12

13 4.3 L argomento method di hclust R permette di usare, come prima accennato, diversi metodi aggregativi. Ogni metodo parte trattando ogni unità come un cluster e, poi, mediante un algoritmo iterativo, unisce, ad ogni step, i due clusters più simili fino ad ottenere un unico cluster contenente tutte le unità. Terminato l algoritmo, bisogna selezionare il numero di clusters che si ritiene più adeguato. Si ottengono gruppi con caratteristiche diverse a seconda del metodo (in letteratura chiamato anche linkage rule) che viene usato. Il metodo del legame singolo crea gruppi con forme allungate e scarsamente omogenei al loro interno; Il metodo del legame completo identifica gruppi tendenzialmente sferici; Gli altri metodi creano gruppi con caratteristiche comprese tra quelle dei clusters ottenuti mediante il metodo del legame singolo e quelle dei clusters ottenuti mediante il metodo del legame completo. 13

14 4.4 Applicazione in R (1/3) Eseguire un analisi dei gruppi gerarchica con il metodo del legame completo sui dati precedentemente analizzati ( dati1 ): dati1 <- dati[,1:2] dim(dati1) d1 <- dist(dati1, method="euclidean", diag=f, upper=f) h1 <- hclust(d1, method="complete"); h1 Rappresentare graficamente l insieme delle partizioni annidate che sono state calcolate, cioè produrre il dendrogramma; di seguito estrarre 3 clusters e rappresentarli graficamente: plot(h1, main="analisi Gerarchica con Legame Completo") h1cluster <- cutree(h1, k=3) h1cluster x11() plot(dati1, col=h1cluster, main="analisi Gerarchica con Legame Completo") Rappresentare mediante tabella il raggruppamento estratto digitando: table(h1cluster) 14

15 4.4 Applicazione in R (2/3) Tagliare il dendrogramma al livello di dissimilarità pari a 3: h1cluster.bis <- cutree(h1, h=3); table(h1cluster.bis) Ripetere la cluster gerarchica usando il metodo del legame medio e confrontare l output che si ottiene con quello ottenuto mediante il metodo del legame completo: h2 <- hclust(d1, method="ave"); h2 x11() plot(h2, main="analisi Gerarchica con Legame Medio") h2cluster <- cutree(h2, k=3); h2cluster x11() plot(dati1, col=h2cluster, main="analisi Gerarchica con Legame Medio") table(h2cluster) 15

16 4.4 Applicazione in R (3/3) Eseguire l analisi dei gruppi con il metodo del centroide e il quadrato della distanza euclidea; tagliare l albero di classificazione in 10 gruppi e ricostruire l albero dai centri dei gruppi: h3 <- hclust(dist(dati1)^2, "cen"); h3 plot(h3, main="analisi Gerarchica con il Metodo del Centroide") memb <- cutree(h3, k=10); memb cent <- NULL for(k in 1:10){ cent <- rbind(cent,colmeans(dati1[memb==k, ])) } cent h31 <- hclust(dist(cent)^2, method="cen", members=table(memb)) x11() plot(h31, main="analisi Gerarchica a partire dai centri dei 10 clusters") Infine, notare che esistono molte altre funzioni di R per eseguire un analisi dei gruppi (es.: diana) e per manipolare l output ottenuto (es.: as.dendrogram, cut e plot(h1$upper)). 16

17 In conclusione si sottolinea che 5. Osservazioni conclusive 1. I gruppi che vengono identificati dipendono da il tipo di distanza usata per creare la matrice di dissomiglianza; il tipo di metodo che viene scelto, se partitivo o aggregativo; il tipo di metodo di aggregazione (se si è scelto il metodo aggregativo). 2. Non esiste il metodo migliore ma ogni metodo ha i suoi vantaggi e svantaggi. 17