Cluster gerarchica. Capitolo



Похожие документы
ANALISI DEI DATI PER IL MARKETING 2014

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel

Stampa su moduli prestampati utilizzando Reflection for IBM 2011 o 2008

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

7.4 Estrazione di materiale dal web

Elementi di Psicometria con Laboratorio di SPSS 1

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

FIRESHOP.NET. Gestione completa delle fidelity card & raccolta punti. Rev

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Creare diagrammi di Gantt con Visio 2003

Istruzioni per l uso dei programmi MomCad, TraveCon, TraveFon

Sistema Informativo Gestione Fidelizzazione Clienti MANUALE D USO

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel

Università di L Aquila Facoltà di Biotecnologie Agro-alimentari

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (licenza per sito)

Excel Terza parte. Excel 2003

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

IBM SPSS Statistics - Essentials for R- Istruzioni di installazione per Mac OS

METODI per effettuare previsioni con analisi di tipo WHAT-IF

IBM SPSS Statistics - Essentials for R - Istruzioni diinstallazione per Mac OS

Configurazione della ricerca desktop di Nepomuk. Sebastian Trüg Anne-Marie Mahfouf Traduzione della documentazione in italiano: Federico Zenith

Excel avanzato. I nomi. Gli indirizzi e le formule possono essere sostituiti da nomi. Si creano tramite Inserisci Nome Definisci

IBM SPSS Direct Marketing 21

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

Il calendario di Windows Vista

COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009

Elementi di Psicometria con Laboratorio di SPSS 1

STRUMENTI DI PRESENTAZIONE MODULO 6

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Windows

ANALISI DEI DATI BIOLOGICI

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Statistica. Lezione 6

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Guida all uso di Java Diagrammi ER

Capitolo 3. Figura 34. Successione 1,2,3...

Modulo 3 - Elaborazione Testi 3.5 Stampa unione

Esame di Informatica CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO. Facoltà di Scienze Motorie

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (utente singolo)

1. Le macro in Access 2000/2003

Elementi di Psicometria

Word è un elaboratore di testi in grado di combinare il testo con immagini, fogli di lavoro e

Confronto tra Microsoft Office Project Standard 2007 e le versioni precedenti

VALORE DELLE MERCI SEQUESTRATE

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Windows

Manuale di istruzioni sulle maschere per il calcolo del punteggio e del voto (unico) degli studenti che sostengono la Prova nazionale 2011

Istruzioni per l uso della Guida. Icone utilizzate in questa Guida. Istruzioni per l uso della Guida. Software di backup LaCie Guida per l utente

STRUMENTI PER L ACCESSIBILITÀ DEL COMPUTER.

6.9. Formati-file. Formati-file in SilverFast. Scrittura di file in diversi formati

Introduzione al MATLAB c Parte 2

IBM SPSS Statistics - Essentials for R- Istruzioni di installazione per Windows

Gestione Rapporti (Calcolo Aree)

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Mac OS

ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2

Uso delle tabelle e dei grafici Pivot

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Avvio di Internet ed esplorazione di pagine Web.

Indice Statistiche Univariate Statistiche Bivariate

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

IBM SPSS Direct Marketing 20

Tabelle Pivot - DISPENSE

Algoritmi di clustering

Il foglio elettronico. Excel PARTE

Note per art.62 - D.L.1/2012 (agroalimentare)

LE CARTE DI CONTROLLO (4)

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

5.6.1 REPORT, ESPORTAZIONE DI DATI

Il coefficiente di correlazione di Spearman per ranghi

GHPPEditor è un software realizzato per produrre in modo rapido e guidato un part program per controlli numerici Heidenhain.

Cosa è un foglio elettronico

Aggiornamento Titoli

Manuale per i redattori del sito web OttoInforma

UTILIZZO DEL MODULO DATA ENTRY PER L IMPORTAZIONE DEI DOCUMENTI (CICLO PASSIVO)

Statistica Sociale Laboratorio 2

Mon Ami 3000 Lotti e matricole Gestione della tracciabilità tramite lotti/matricole

Presentation. Scopi del modulo

VERIFICA DELLE IPOTESI

Statistica 4038 (ver. 1.2)

Sistemi di misurazione e valutazione delle performance

Acronis License Server. Manuale utente

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

GESTIONE CONTRATTI. Contratti clienti e contratti fornitori

2 - Modifica Annulla Selezione finestra. S.C.S. - survey CAD system FIGURA 2.1

MANUALE UTENTE. In questo manuale verranno descritte tutte le sue funzioni. Il sistema OTRS è raggiungibile al seguente link:

Esempi posizionamento moduli in Layout

Obiettivi del corso. Creare, modificare e formattare un semplice database costituito da tabelle, query, maschere e report utilizzando Access 2000.

Relazioni statistiche: regressione e correlazione

IBM SPSS Direct Marketing 19

Utilizzare Event Viewer

Registratori di Cassa

FIRESHOP.NET. Gestione del taglia e colore.

MANUALE ESSE3 Gestione Registro delle lezioni

Automazione Industriale (scheduling+mms) scheduling+mms.

Eliminare il messaggio "Rete non identificata" da Windows 7

Транскрипт:

Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun caso (o variabile) in un cluster distinto e che combina i cluster fino a quando ne rimane solo uno. È possibile analizzare le variabili semplici oppure scegliere una delle trasformazioni di standardizzazione disponibili. Le misure di similarità e dissimilarità vengono generate dalla procedura Distanze. A ciascun livello verranno visualizzate statistiche in base alle quali selezionare la soluzione migliore. Esempio. Esistono gruppi di trasmissioni televisive identificabili che attraggono tipi di audience analoghi all interno di ciascun gruppo? Utilizzando la cluster gerarchica è possibile raggruppare le trasmissioni televisive (casi) in gruppi omogenei in base alle caratteristiche degli spettatori. Questo metodo può essere utilizzato per identificare i segmenti di mercato. In alternativa, è possibile raggruppare le città (casi) in gruppi omogenei in modo che da poter selezionare città con caratteristiche confrontabili per verificare diverse strategie di mercato. Statistiche. Programma di agglomerazione, matrice delle distanze (o similarità) e cluster di appartenenza per un unica soluzione o una serie di soluzioni. Grafici: dendrogrammi e grafici a stalattite Dati. Le variabili possono essere quantitative, binarie o dati di conteggio. Lo scaling delle variabili è molto importante in quanto le differenze di scaling possono influire sulle soluzioni dei cluster. Se lo scaling delle variabili presenta differenze notevoli (ad esempio, una variabile viene misurata in dollari e l altra in anni), è consigliabile standardizzarle. Ciò può essere effettuato in modo automatico mediante la procedura Cluster gerarchica. Ordine dei casi. Se le distanze assegnate o le similarità sono presenti nei dati iniziali o nei cluster aggiornati durante l unione, la soluzione del cluster risultante può essere influenzata dall ordine dei casi del file. Può essere utile ottenere più soluzioni diverse 517

518 Capitolo 33 con casi disposti in ordini casuali diversi per verificare la stabilità di una soluzione specifica. Assunzioni. Le misure di dissimilarità o di similarità utilizzate devono essere idonee per i dati analizzati. Per ulteriori informazioni sulla scelta delle misure di dissimilarità e similarità, vedere la procedura Distanze. È inoltre necessario includere nell analisi tuttelevariabili significative. L omissione di variabili importanti può portare a soluzioni improprie. Poiché la cluster gerarchica rappresenta un metodo esplorativo, i risultati devono essere considerati provvisori finché non vengano confermati da un campione indipendente. Figura 33-1 Output della cluster gerarchica Programma di agglomerazione Stadio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Stadio di formazione Cluster accorpati del cluster Cluster Cluster Cluster Cluster Prossimo 1 2 Coefficienti 1 2 stadio 11 12,112 0 0 2 6 11,132 0 1 4 7 9,185 0 0 5 6 8,227 2 0 7 7 10,274 3 0 7 1 3,423 0 0 10 6 7,438 4 5 14 13 14,484 0 0 15 2 5,547 0 0 11 1 4,691 6 0 11 1 2 1,023 10 9 13 15 16 1,370 0 0 13 1 15 1,716 11 12 14 1 6 2,642 13 7 15 1 13 4,772 14 8 0

9 7 8 6 519 Cluster gerarchica Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Cluster di appartenenza Etichetta 4 Cluster 3 Cluster 2 Cluster Argentina 1 1 1 Brazil 1 1 1 Chile 1 1 1 Domincan R. 1 1 1 Indonesia 1 1 1 Austria 2 2 1 Canada 2 2 1 Denmark 2 2 1 Italy 2 2 1 Japan 2 2 1 Norway 2 2 1 Switzerland 2 2 1 Bangladesh 3 3 2 India 3 3 2 Bolivia 4 1 1 Paraguay 4 1 1 14:India 14 13:Bangladesh 13 5 10:Japan 2 10 4 9:Italy 3 Grafico a stalattite verticale 7:Canada 8:Denmark 12:Switzerland 12 Caso 11:Norway 11 6:Austria 16:Paraguay 16 15:Bolivia 15 5:Indonesia 2:Brazil 4:Domincan R. 3:Chile 1:Argentina Numero di cluster 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

520 Capitolo 33 * * * * * * * * * * * * * * CLUSTER GERARCHICA* * * * * * * * * * * * * * * * * Dendrogramma con legame medio fra i gruppi Cluster accorpati con distanza riscalata CASO 0 5 10 15 20 25 Etichetta Numero +---------+---------+---------+---------+---------+ LIFEEXPF 2 BABYMORT 5 LITERACY 3 BIRTH_RT 6 FERTILTY 10 URBAN 1 LOG_GDP 8 POP_INCR 4 B_TO_D 9 DEATH_RT 7 LOG_POP 11 Per ottenere una cluster gerarchica E Dai menu, scegliere: Analizza Classificazione Cluster gerarchica... Figura 33-2 Finestra di dialogo Cluster gerarchica E Per raggruppare i casi in cluster è necessario selezionare almeno una variabile numerica. Per raggruppare le variabili in cluster è necessario selezionare almeno tre variabili numeriche.

521 Cluster gerarchica È inoltre possibile selezionare una variabile di identificazione per etichettare i casi. Cluster gerarchica: Metodo Figura 33-3 Finestra di dialogo Cluster gerarchica: Metodo Metodo di raggruppamento. Le alternative disponibili sono: Legame medio fra i gruppi, Legame medio entro gruppi, Del vicino più vicino, Del vicino più lontano, Centroide, Mediana e Ward. Misura. Consente di specificare la misura di similarità o dissimilarità da utilizzare per il raggruppamento. Selezionare il tipo di dati e la misura di similarità o dissimilarità desiderata: Intervallo. Le alternative disponibili sono: Distanza euclidea, Distanza euclidea quadratica, Coseno, Correlazione di Pearson, Chebychev, City-Block, Minkowski e Personalizzato. Conteggi. Le alternative disponibili sono: Misura chi-quadrato e Misura phi-quadrato. Binaria. Le alternative disponibili sono: Distanza euclidea, Distanza euclidea quadratica, Differenza di dimensione, Differenza di modello, Varianza, Dispersione, Forma, Corrispondenza semplice, Correlazione phi a 4 punti, Lambda, D di Anderberg, Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2, Lance e Williams, Ochiai, Rogers e Tanimoto, Russel e Rao, Sokal e Sneath 1,

522 Capitolo 33 Sokal e Sneath 2, Sokal e Sneath 3, Sokal e Sneath 4, Sokal e Sneath 5, Y di Yule e Qdi Yule. Trasforma valori. Consente di standardizzare i valori dei dati per casi o valori prima di calcolare le similarità (non disponibile per i dati binari). I metodi di standardizzazione disponibili sono: punteggi z, intervallo da 1 a 1, intervallo da 0 a 1, ampiezza massimadi1,mediadi1edeviazionestandarddi1. Trasforma misure. Consente di trasformare i valori generati dalla misura di distanza. Questi verranno applicati dopo il calcolo della misura di distanza. Le alternative disponibili sono: Valori assoluti, Cambia segno e Riscala all intervallo fra 0 e 1. Cluster gerarchica: Statistiche Figura 33-4 Finestra di dialogo Cluster gerarchica: Statistiche Programma di agglomerazione. Consente di visualizzare i casi o i cluster accorpati ad ognistadio,ledistanzetraicasioiclusterda accorpare e l ultimo livello di cluster in cui un caso (o una variabile) è stato accorpato al cluster. Matrice delle distanze. Fornisce le distanze o le similarità tra gli elementi. Cluster di appartenenza. Viene visualizzato il cluster a cui viene assegnato ciascun caso a uno o più stadi della combinazione dei cluster. Le opzioni disponibili sono Soluzione unica e Intervallo di soluzioni.

523 Cluster gerarchica Cluster gerarchica: Grafici Figura 33-5 Finestra di dialogo Cluster gerarchica: Grafici Dendrogramma. Visualizza un dendrogramma. Utilizzando i dendrogrammi è possibile valutare la coesione dei cluster formati ed ottenere informazioni sul numero di cluster che è opportuno tenere. A stalattite. Visualizza un grafico a stalattite, che comprende tutti i cluster o un intervallo specifico di cluster. Nei grafici a stalattite vengono visualizzate informazioni sulle modalità con cui i casi vengono combinati in cluster ad ogni iterazione dell analisi. Specificando l orientamento desiderato è possibile selezionare un grafico verticale o orizzontale. Cluster gerarchica: Salva nuove variabili Figura 33-6 Finestra di dialogo Cluster gerarchica: Salva Cluster di appartenenza. Consente di salvare i cluster di appartenenza per una soluzione unica o per un intervallo di soluzioni. Le variabili salvate possono essere utilizzate in analisi successive per valutare altre differenze tra i gruppi.

524 Capitolo 33 Funzioni aggiuntive della sintassi del comando CLUSTER La procedura Cluster gerarchica usa la sintassi del comando CLUSTER. Illinguaggio a comandi SPSS permette anche di: Usare più metodi di raggruppamento in una singola analisi. Leggere ed analizzare una matrice di prossimità. Scrivere una matrice di prossimità sul disco per analizzarla in seguito. Specificare i valori per la potenza e la radice nella misura della distanza personalizzata (potenza). Specificare i nomi delle variabili salvate. Per informazioni dettagliate sulla sintassi, vedere SPSS Command Syntax Reference.

Capitolo 34 Cluster con metodo delle K-medie Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo in grado di gestire un elevato numero di casi. Tale algoritmo, tuttavia, richiede l indicazione del numero di cluster. È possibile specificare i centri iniziali del cluster, se si conosce questa informazione. È possibile selezionare uno dei due metodi disponibili per la classificazione dei casi, ovvero l aggiornamento iterativo dei centri cluster oppure la semplice classificazione. È possibile salvare l appartenenza al cluster, le informazioni sulla distanza e i centri del cluster finali. È inoltre possibile specificare una variabile i cui valori possono essere utilizzati per etichettare l output caso per caso. i può inoltre richiedere l analisi delle statistiche F di varianza. Se da un lato queste statistiche sono opportunistiche, ovvero vengono eseguiti tentativi di raggruppamenti che presentino differenze, le corrispondenti dimensioni relative forniscono informazioni sul contributo apportato da ciascuna variabile alla separazione dei gruppi. Esempio. Quali sono i gruppi di show televisivi che attraggono un pubblico analogo all interno di ciascun gruppo? Il metodo cluster k-medie consente di raggruppare gli show televisivi (casi) ink gruppi omogenei in base alle caratteristiche degli spettatori. Questo processo può essere utilizzato per identificare i segmenti di mercato. In alternativa, è possibile raggruppare le città (casi) in gruppi omogenei in modo che da poter selezionare città con caratteristiche confrontabili per verificare diverse strategie di mercato. Statistiche. Soluzione completa: centri iniziali del cluster, tabella ANOVA. Per ciascun caso: informazioni sui cluster, distanza dal centro del cluster. Dati. Le variabili devono essere quantitative a livello di intervallo o di rapporto. Se le variabili sono binarie o conteggi, utilizzare la procedura Cluster gerarchica. Ordine dei casi e dei centri di cluster iniziale. L algoritmo predefinito per la scelta dei centri di cluster iniziali varia a seconda dell ordine dei casi. L opzioneusa medie mobili della finestra di dialogo Iterazioni rende la soluzione risultante potenzialmente 525

526 Capitolo 34 dipendente dall ordine dei casi, indipendentemente dai centri di cluster scelti inizialmente. Se si utilizza uno di questi metodi, può essere utile ottenere più soluzioni diverse con casi disposti in ordini casuali diversi per verificare la stabilità di una soluzione specifica. Per evitare problemi con l ordine dei casi, è consigliabile specificare i centri di cluster iniziali ed evitare di usare l opzione Usa medie mobili. Tuttavia, l ordinamento dei centri di cluster iniziali può influire sulla soluzione se esistono distanze assegnate dai casi ai centri di cluster. Per valutare la stabilità di una soluzione, è possibile confrontare i risultati delle analisi con diverse permutazioni dei valori dei centri iniziali. Assunzioni. Le distanze vengono calcolate utilizzando la distanza euclidea semplice. Se si desidera utilizzare un altra misura di distanza o di similarità, utilizzare la procedura Cluster gerarchica. La scalatura delle variabili è un operazione che deve essere effettuata con molta attenzione. Se le variabili vengono misurate con scale diverse (ad esempio se una variabile è espressa in dollari e un altra è espressa in anni), i risultati possono essere fuorvianti. In questi casi è consigliabile standardizzare le variabili prima di procedere con l analisi cluster kmedie (utilizzando la procedura Descrittive). Questa procedura presume che sia stato selezionato il numero esatto di cluster e che siano state incluse tutte le variabili rilevanti. Se è stato selezionato un numero di cluster inesatto o sono state omesse variabili importanti, i risultati possono essere inattendibili. Figura 34-1 Output della procedura Cluster K-medie Centri iniziali dei cluster Cluster ZURBAN ZLIFEEXP ZLITERAC ZPOP_INC ZBABYMOR ZBIRTH_R ZDEATH_R ZLOG_GDP ZB_TO_D ZFERTILT ZLOG_POP 1 2 3 4-1,88606-1,54314 1,45741,55724-3,52581-1,69358,62725,99370-2,89320-1,65146 -,51770,88601,93737,16291 3,03701-1,12785 4,16813 1,38422 -,69589 -,88983 2,68796,42699,33278-1,08033 4,41517,63185-1,89037,63185-1,99641-1,78455,53091 1,22118 -,52182 -,31333 4,40082 -,99285 2,24070,75481,46008 -,76793,24626 2,65246-1,29624 -,74406

527 Cluster con metodo delle K-medie Cronologia iterazioni Modifiche ai centri dei cluster Iterazione 1 2 3 4 5 6 7 8 9 10 1 2 3 4 1.932 2.724 1.596 3.343.000.471.314.466.861.414.195.172.604.337.150.000.000.253.167.237.000.199.071.287.623.160.000.000.000.084.074.000.000.080.077.000.000.097.000.185 Centri dei cluster finali Cluster ZURBANA ZSPVITA ZALFAB ZINCRPOP ZMORTINF ZTASNAT ZTASMOR ZLOGPIL ZNATSUMO ZFERTIL ZLOGPOP 1 2 3 4-1.70745 -.30863.62767.16816-2.52826 -.15939.80611 -.28417-2.30833.13880.73368 -.81671.59747.13400 -.95175 1.45301 2.43210.22286 -.80817.25622 1.52607.12929 -.99285 1.13716 2.10314 -.44640.31319 -.71414-1.77704 -.58745.94249 -.16871 -.29856.19154 -.84758 1.45251 1.51003 -.12150 -.87669 1.27010.83475.34577 -.22199 -.49499 Distanze tra i centri dei cluster finali Cluster 1 2 3 4 1 2 3 4 5.627 7.924 5.640 5.627 3.249 2.897 7.924 3.249 5.246 5.640 2.897 5.246

528 Capitolo 34 ANOVA ZURBANA ZSPVITA ZALFAB ZINCRPOP ZMORTINF ZTASNAT ZTASMOR ZLOGPIL ZNATSUMO ZFERTIL ZLOGPOP Cluster Errore Media dei Media dei quadrati df quadrati df F Sig. 10.409 3.541 68 19.234.000 19.410 3.210 68 92.614.000 18.731 3.229 68 81.655.000 18.464 3.219 68 84.428.000 18.621 3.239 68 77.859.000 19.599 3.167 68 117.339.000 13.628 3.444 68 30.676.000 17.599 3.287 68 61.313.000 16.316 3.288 68 56.682.000 18.829 3.168 68 112.273.000 3.907 3.877 68 4.457.006 I test F devono essere utilizzati solo per motivi descrittivi poiché i cluster sono stati scelti per ottimizzare le differenze tra i casi in diversi cluster. I livelli di significatività osservati non sono perciò corretti e non possono quindi essere interpretati come test dell'ipotesi che le medie dei cluster siano uguali. Per ottenere un analisi cluster K-medie E Dai menu, scegliere: Analizza Classificazione Cluster K-medie...

529 Cluster con metodo delle K-medie Figura 34-2 Finestra di dialogo Cluster K-medie E E E E Selezionare le variabili da utilizzare nell analisi cluster. Specificare il numero di cluster. Il numero di cluster specificato deve essere almeno di 2 e non deve essere maggiore al numero di casi del file dati. Selezionare il metodo Itera e classifica oppure il metodo Classifica soltanto. In alternativa, selezionare una variabile di identificazione per etichettare i casi. Efficienza dell analisi cluster K-medie Il comando Clusterk-medie è efficace principalmente in quanto non calcola le distanze tra tutte le coppie di casi, a differenza di numerosi algoritmi di raggruppamento, ad esempio quello utilizzato dal comando per la Cluster gerarchica di SPSS.

530 Capitolo 34 Per ottenere la massima efficienza, creare un campione di casi e utilizzare il metodo Itera e classifica per determinare i centri cluster. Selezionare Scrivi valori finali su file. Quindi, ripristinare tutto il file di dati e selezionare Classifica soltanto come metodo e selezionare Leggi valori iniziali per classificare tutto il file utilizzando i centri valutati per il campione. È possibile leggere o scrivere da un file o file di dati. I file di dati possono anche essere riutilizzati nella stessa sessione, ma non vengono salvati come file a meno che siano stati salvati come tali alla fine della sessione. I nomi dei file di dati devono essere conformi alle regole dei nomi delle variabili di SPSS. Per ulteriori informazioni, vedere Nomi delle variabili in Capitolo 5 a pag. 99. Cluster K-medie: Iterazioni Figura 34-3 Finestra di dialogo Cluster K-medie: Iterazioni Nota: queste opzioni sono disponibili solo se si seleziona il metodo Itera e classifica nella finestra di dialogo Cluster con metodo delle K-medie. Massimo numero di iterazioni. Consente di impostare il numero massimo di iterazioni per l algoritmo k-medie. Le iterazioni si interromperanno al numero impostato, anche se il criterio di convergenza non viene soddisfatto. Il numero deve essere compreso tra1e999. Per riprodurre l algoritmo utilizzato dal comando Quick Cluster delle versioni di SPSS precedenti alla 5.0, impostare l opzione Massimo numero di iterazioni su 1. Criterio di convergenza. Determina il termine dell iterazione. Rappresenta una proporzione della distanza minima fra i centri iniziali del cluster in modo che sia maggiore di 0 e minore di 1. Se, ad esempio, il criterio è 0,02, il processo di iterazione terminerà quando un iterazione completa non è in grado di spostare i centri cluster di una distanza maggiore del 2% della distanza minima fra i centri iniziali del cluster. Usa medie mobili. Consente di richiedere l aggiornamento dei centri cluster in seguito all assegnazione di ciascun caso Se non viene selezionata questa opzione, i nuovi centri del cluster verranno calcolati quando tutti i casi saranno stati assegnati.

531 Cluster con metodo delle K-medie Cluster K-medie: Salva Figura 34-4 Finestra di dialogo Cluster K-medie: Salva nuove variabili È possibile salvare informazioni sulla soluzione come nuove variabili da utilizzare in analisi successive: Cluster di appartenenza. Consente di creare una nuova variabile che indica l appartenenza finale al cluster di ciascun caso. I valori della nuova variabile sono compresitra1eilnumerodicluster. Distanza dal centro. Consente di creare una nuova variabile che indica la distanza euclidea tra ciascun caso e il relativo centro di classificazione. Cluster K-medie: Opzioni Figura 34-5 Finestra di dialogo Cluster K-medie: Opzioni Statistiche. È possibile selezionare le seguenti statistiche: centri iniziali del cluster, tabella ANOVA e informazioni sui cluster per ciascun caso. Centri iniziali del cluster. Prima stima delle medie delle variabili per ciascun cluster. In mancanza di indicazioni particolari, viene selezionato dai dati un numero di casi ben distanziati uguale al numero dei cluster. I centri dei cluster

532 Capitolo 34 iniziali vengono usati per un primo ciclo di classificazione e poi vengono aggiornati. Tabella ANOVA (Cluster k-medie: opzioni). Produce una tabella di analisi della varianza con test F per ogni variabile. I test F sono descrittivi e il livello di significatività fornisce informazioni utili. La tabella non viene creata se tutti i casi vengono assegnati a un solo cluster. Cluster per ogni caso. Visualizza per ogni caso il cluster di appartenenza e la distanza euclidea dal centro del cluster utilizzato per classificare il caso. Visualizza inoltre la distanza euclidea fra i centri finali. Valori mancanti. Le opzioni disponibili sono Escludi casi listwise o Escludicasipairwise. Esclusione listwise. Consente di escludere i casi coni valori mancanti per le variabili di raggruppamento dall analisi. Esclusione pairwise. Consente di assegnare i casi ai cluster in base alle distanze calcolate da tutte le variabili con valori non mancanti. Opzioni aggiuntive del comando QUICK CLUSTER La procedura Cluster K-medie usa la sintassi del comando QUICK CLUSTER. Il linguaggio a comandi SPSS permette anche di: Accettare i primi k casi come centri dei cluster iniziali per evitare di dover leggere i dati normalmente usati per stimarli. Specificare i centri iniziali dei cluster direttamente come parte della sintassi del comando. Specificare i nomi delle variabili salvate. Per informazioni dettagliate sulla sintassi, vedere SPSS Command Syntax Reference.