K-means clustering con R

Dimensione: px

Iniziare la visualizzazioe della pagina:

Download "K-means clustering con R"

Marianna Spinelli
5 anni fa
Visualizzazioni

1 K-means clustering con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 1/10

2 Introduzione K-means è un approccio semplice ed elegante per il partizionamento di un insieme di dati in K cluster non sovrapposti. Per eseguire K-means clustering, dobbiamo prima specificare il numero desiderato di cluster K; quindi l algoritmo K-means assegna ogni osservazione esattamente uno dei cluster K. L idea alla base di K-means è che un buon raggruppamento è quello per cui la variazione intra-cluster è la più piccola possibile. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 2/10

3 f.data Generiamo un semplice set di dati con due cluster ben separati. I dati sono ottenuti generando numeri casuali normali: le prime 25 osservazioni hanno uno spostamento rispetto alla media delle 25 osservazioni successive. Si noti che nel codice sottostante le variabili sono generate direttamente in un data.frame() set.seed(2) f.data=data.frame("group"=c(rep("g1",25),rep("g2",25)), "X1"=c(rnorm(25)+3,rnorm(25)), "X2"=c(rnorm(25)-4,rnorm(25))) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 3/10

4 Plot dei dati I due gruppi (non ancora quelli stimati mediante analisi i cluster) sono distrinti dai due colori. library(ggplot2) gg1=ggplot(f.data,aes(x=x1,y=x2,color=group))+geom_point(size=4) gg1 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 4/10

5 Implementare K-means con R La funzione kmeans() può essere caricata direttamente in R: kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("hartigan-wong", "Lloyd", "Forgy", "MacQueen"), trace=false) x : i dati (devono essere tutti numerici) centers : o il numero di cluster, K, o un insieme di (distinti) centri iniziali del cluster. iter.max : le iterazioni (dell algoritmo) massime ammesse. nstart : se centers indica il numero K, nstart indica il numero di insiemi casuali iniziali. Si consiglia di eseguire sempre K-means con un valore di nstart elevato, ad esempio 20 o 50, poiché, altrimenti, si potrebbe ottenere un ottimo locale non desiderato. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 5/10

6 Esempio con K=2 km.out=kmeans(f.data[,2:3],centers=2,nstart=20) km.out K-means clustering with 2 clusters of sizes 25, 25 Cluster means: X1 X Clustering vector: [1] [36] Within cluster sum of squares by cluster: [1] (between_ss / total_ss = 72.8 %) Available components: [1] "cluster" "centers" "totss" "withinss" [5] "tot.withinss" "betweenss" "size" "iter" [9] "ifault" file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 6/10

7 Estrarre risultati dall output Esempio 1: il vettore che assegna il gruppo ad ogni unità del dataset. km.out$cluster [1] [36] Il codice seguente inserisce il vettore di appartenenza ai gruppi (come factor) come una nuova variabile (Cluster) nel data set f.data. Di solito conviene fare quest operazione per analizzare e plottare i risultati. f.data$cluster=as.factor(km.out$cluster) Esempio 2: Coordinata X1 del centroide del gruppo1 km.out$centers[1,1] [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 7/10

8 Plot dei risultati Qui le osservazioni possono essere facilmente riportate sul grafico poiché bidimensionali. Se ci fossero più di due variabili potremmo, se si vogliono riportare graficamente i gruppi, effettuare una PCA e utilizzare le prime due CP. gg2=ggplot(f.data,aes(x=x1,y=x2,color=cluster,shape=group,))+geom_point(size=4) gg2+geom_point(aes(x=km.out$center[1,1],y=km.out$center[1,2]),size=5,color="black")+ geom_point(aes(x=km.out$center[2,1],y=km.out$center[2,2]),size=5,color="black")+ annotate("text", x=km.out$center[1,1],y=km.out$center[1,2]-0.2, label = "Centroid 1")+ annotate("text", x=km.out$center[2,1],y=km.out$center[2,2]-0.2, label = "Centroid 2")+ ggtitle("k-means clustering, k=2")+ theme(plot.title = element_text(size = rel(2))) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 8/10

9 Analisi con K=3 In questo esempio, sappiamo che in realtà ci sono due gruppi. Per i dati reali, in generale, non conosciamo il vero numero di cluster. Analizziamo l output di k-means con K=3 km.out.3=kmeans(f.data[,2:3],centers=3,nstart=20) km.out.3 K-means clustering with 3 clusters of sizes 17, 23, 10 Cluster means: X1 X Clustering vector: [1] [36] Within cluster sum of squares by cluster: [1] (between_ss / total_ss = 79.3 %) Available components: [1] "cluster" "centers" "totss" "withinss" [5] "tot.withinss" "betweenss" "size" "iter" [9] "ifault" file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 9/10

Plot f.data$cluster.k3=as.factor(km.out.3$cluster) gg2=ggplot(f.data,aes(x=x1,y=x2,color=cluster.k3,shape=group,))+geom_point(size=4) gg2+geom_point(aes(x=km.out.3$center[1,1],y=km.out.3$center[1,2]),size=4,color="black")+ geom_point(aes(x=km.

10 Plot f.data$cluster.k3=as.factor(km.out.3$cluster) gg2=ggplot(f.data,aes(x=x1,y=x2,color=cluster.k3,shape=group,))+geom_point(size=4) gg2+geom_point(aes(x=km.out.3$center[1,1],y=km.out.3$center[1,2]),size=4,color="black")+ geom_point(aes(x=km.out.3$center[2,1],y=km.out.3$center[2,2]),size=4,color="black")+ geom_point(aes(x=km.out.3$center[3,1],y=km.out.3$center[3,2]),size=4,color="black")+ annotate("text", x=km.out.3$center[1,1],y=km.out.3$center[1,2]-0.2, label = "Centroid 1")+ annotate("text", x=km.out.3$center[2,1],y=km.out.3$center[2,2]-0.2, label = "Centroid 2")+ annotate("text", x=km.out.3$center[3,1],y=km.out.3$center[3,2]-0.2, label = "Centroid 3")+ ggtitle("k-means clustering, k=3")+ theme(plot.title = element_text(size = rel(2))) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 10/10

Documenti analoghi

Analisi dei Gruppi con R

Analisi dei Gruppi con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi dei Gruppi