Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)



Documenti analoghi
(prezzo di chiusura del Venerdi' - prezzo di chiusura del Venerdi' precedente)/(prezzo di chiusura del Venerdi' precedente)

TECNICHE DI CLASSIFICAZIONE

Indice; p. 1. Introduzione; p. 2. Evoluzione del mercato libero dell energia elettrica e del gas dalla liberalizzazione: p. 2

Algoritmi di clustering

Mercato lavoro, orari, produttività, salari

Cluster Analysis (2 parte)

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

1. PRIME PROPRIETÀ 2

L UNIONE EUROPEA. L Unione europea, invece, è una grande famiglia di 27 Stati 1 europei con più di 450 milioni di abitanti

intranet.ruparpiemonte.it

Strumenti informatici 13.1

SITO DI ZONA

Ricerca di outlier. Ricerca di Anomalie/Outlier

Politiche Sanitarie Comparate Lezione 3

,/0(5&$72',&216802,/0(5&$72 '(//(25*$1,==$=,21,,7$/,$12(' (67(52(/(/252&$5$77(5,67,&+(

Elementi di Psicometria con Laboratorio di SPSS 1

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME

NOI E L UNIONE EUROPEA

Come modificare la propria Home Page e gli elementi correlati

MONOPOLIO, MONOPOLISTA

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

PULSANTI E PAGINE Sommario PULSANTI E PAGINE...1

Gestionalino-Base è un Software che gestisce altri Software Specifici progettati per

Dimensione di uno Spazio vettoriale

Metodi Computazionali

e-dva - eni-depth Velocity Analysis

Guida all uso di Java Diagrammi ER

Identificare le diverse parti di una finestra: barra del titolo, barra dei menu, barra degli strumenti, barra di stato, barra di scorrimento.

Il sofware è inoltre completato da una funzione di calendario che consente di impostare in modo semplice ed intuitivo i vari appuntamenti.

REGISTRO ELETTRONICO SPAGGIARI. MANUALE OPERATIVO PER I DOCENTI Rev. 00 del 21/11/2012

REGISTRO ELETTRONICO SPAGGIARI. MANUALE OPERATIVO PER I DOCENTI Rev. 00 del 21/11/2012

Matematica in laboratorio

Esercizio data base "Biblioteca"

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

PowerPoint 2007 Le funzioni

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

L archiviazione della posta elettronica può aiutarci a recuperare spazio senza costringerci a cestinare documenti importanti

Il calendario di Windows Vista

I ricavi ed i costi di produzione

SISTEMI MULTIAGENTE. Esercizio

Definire all'interno del codice un vettore di interi di dimensione DIM, es. int array[] = {1, 5, 2, 4, 8, 1, 1, 9, 11, 4, 12};

Cosa è il Volontariato?

NAVIGAORA HOTSPOT. Manuale utente per la configurazione

PROGRAMMA SVOLTO NELLA SESSIONE N.

VALORI ECONOMICI DELL AGRICOLTURA 1

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Raggruppamenti Conti Movimenti

Rapporto dal Questionari Insegnanti

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

5.2.1 RELAZIONI TRA TABELLE Creare una relazione uno-a-uno, uno-a-molti tra tabelle 9

Dovremmo a questo punto incominciare a vedere la suddivisione della nostra superficie.

APRIRE UN PROGRAMMA DI FOGLIO ELETTRONICO

Plate Locator Riconoscimento Automatico di Targhe

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Come costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali

ROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim

EDUCAZIONE ALIMENTARE TABELLA RIASSUNTIVA dei RISULTATI del QUESTIONARIO PER I GENITORI

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Analisi di scenario File Nr. 10

PROGETTO PIEDIBUS : PUO FUNZIONARE?

Rette e piani con le matrici e i determinanti

La rubrica degli indirizzi di posta elettronica associati al dominio scuole.piemonte.it

Entrare nel sistema. Clicca su Entra per entrare nel sistema. PAGINA 1

CALCOLO COMBINATORIO

10. Insiemi non misurabili secondo Lebesgue.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Istruzioni per l uso della Guida. Icone utilizzate in questa Guida. Istruzioni per l uso della Guida. Software di backup LaCie Guida per l utente

4. SERIE NUMERICHE FIGURALI

Elementi di Psicometria con Laboratorio di SPSS 1

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

CMS ERMES INFORMATICA

Approfondimento su Schengen

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

Comparatori. Comparatori di uguaglianza

NUOVA PROCEDURA COPIA ED INCOLLA PER L INSERIMENTO DELLE CLASSIFICHE NEL SISTEMA INFORMATICO KSPORT.

Ingegneria del Software T

Gestione Voti Scolastici

Per chi ha la Virtual Machine: avviare Grass da terminale, andando su Applicazioni Accessori Terminale e scrivere grass

Alessandro Pellegrini

Analisi dei requisiti e casi d uso


PROGRAMMA GESTIONE TURNI MANUALE UTENTE. Programma Gestione Turni Manuale Utente versione 1.1

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Risultati dello studio sperimentale sull uso del prodotto Zerosmoke Come coadiuvante nella cessazione del tabagismo Soggetti

1 ACCESSO AL 3 2 CARICAMENTO DELLE RICHIESTE/PRESTAZIONI MONITORAGGIO DELLE RICHIESTE DOWNLOAD ESITI...

regola(1,[e,f],b) regola(2,[m,f],e) regola(3,[m],f) regola(4,[b,f],g) regola(5,[b,g],c) regola(6,[g,q],a)

Corrispondenze e funzioni

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Cenni su algoritmi, diagrammi di flusso, strutture di controllo

SCHEDA DATI STATISTICO-ECONOMICI NOVEMBRE La crisi economica colpisce soprattutto i lavoratori.

Progettazione di Basi di Dati

Capitolo 13: L offerta dell impresa e il surplus del produttore

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Gestionalino è un Software che gestisce altri Software Specifici per risolvere le varie

Transcript:

Analysis Esempio Stiamo studiando le abitudini alimentari nei Paesi europei. Sulla base dei dati a disposizione, ci chiediamo se si possano individuare sotto-aree con abitudini alimentari simili. Dati: Nel data set Dieta (Dieta.txt, Dieta.sav) sono contenute informazioni sul consumo medio dei principali alimenti in 6 paesi Europei. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U) Nome del paese Consumo medio annuale in litri Consumo medio annuale in litri Domanda. Possiamo raggruppare i paesi Europei in sotto-aree con comportamenti alimentari simili? Domanda Possiamo dare un'interpretazione ai gruppi (cluster) ottenuti? Cosa hanno in comune i Paesi che appartengono allo stesso gruppo? Domanda Quali variabili hanno maggiormente influenzato la determinazione dei gruppi? Analisi A tale scopo individuiamo la presenza di possibili gruppi mediante SPSS. Dal menu Analyse, selezioniamo Classify. SPSS permette di scegliere due diversi approcci per la cluster analysis: K-Means e Hierarchical : i due metodi cercano entrambi gruppi di oggetti tali che all interno dello stesso gruppo (cluster) gli oggetti siano simili tra loro, e oggetti appartenenti a gruppi diversi siano differenti tra loro: lo scopo è minimizzare la distanza all interno del cluster e massimizzare la distanza tra cluster: K-Means : gli oggetti sono divisi in sottoinsiemi disgiunti, tale che ciascun oggetto appartiene ad uno ed un solo cluster. Ogni cluster è associato con un centroide; ogni oggetto viene assegnato al cluster il cui centroide risulta più vicino. Il numero di cluster deve essere specificato inizialmente! Hierarchical cluster: consiste in un insieme di cluster gerarchici organizzati tramite un albero gerarchico (dendogramma). Non necessita di specificare a priori del numero di cluster ; il numero di cluster può essere ottenuto spezzando il dendogramma a diverse altezze. L algoritmo si basa su una matrice di distanze tra gli oggetti (con la metrica desiderata).

In questo esempio utilizziamo il metodo K-Means ing. Il metodo gerarchico sarà illustrato nell esempio. Dal menu Analyse, selezioniamo Classify, e poi K-Means Selezioniamo le variabili da considerare nell analisi (in questo caso possiamo selezionarle tutte, alternativa potrebbe essere selezionare solo alcune variabili tramite un analisi esplorativa iniziale); la variabile nominale id (o paese) sarà selezionata come Label Cases by. Dobbiamo decidere il numero di cluster: Consideriamo i seguenti casi: e 4. Number of clusters:

Analisi dell output Cominciamo dall ultima tabella che presenta il riassunto dell analisi; in particolare, ci sono cluster, a cui appartengono rispettivamente, 6 e 7 oggetti. Number of Cases in each Valid Missing.000 6.000 7.000 6.000.000 La tabella Membership ci dice a quale cluster appartiene ciascun oggetto; è un risultato opzionale e va ottenuto selezionando dal riquadro Options la casella Information for each case.

Membership Case Number 4 5 6 7 8 9 0 4 5 6 ID Distance B 7.0 DK 50.765 D 4.08 GR 4.498 E 47.905 F 40.08 IRL 8.845 I 5.09 NL 9.95 P 4.74 UK 46.586 A 8.69 FIN 6.5 ISL 4.07 NO.46 SV.0 Al primo cluster appartengono Grecia, Spagna e Italia, al secondo Danimarca, Irlanda, Finlandia, Islanda, Norvegia, Svezia, infine al terzo cluster appartengono Belgio, Germania, Francia, Olanda, Portogallo, UK e Austria. L ultima colonna rappresenta la distanza dal punto al centroide del cluster di riferimento, dove la metrica utilizzata da SPSS è la metrica euclidea. Domanda. Possiamo dare un'interpretazione ai gruppi ottenuti? Cosa hanno in comune i Paesi che appartengono allo stesso gruppo? Cominciamo col vedere quali siano i centroidi finali. Final Centers CERE RISO PATA ZUCC VERD VINO CARN LATT BURR UOVA 97. 76.65 7.44 5..4 4. 78.80 77.5 85.87 8. 9.95 6.80 0.0 50.7 88.89 4.0 0.0.99 89.07 77.5 9.77 75.50 79.8 07.49.0 4.8 5.4.57.0.7 I final cluster centers di un gruppo sono costituiti dalle medie di ogni variabile all interno del gruppo, e ci aiutano a capire le caratteristiche degli oggetti appartenenti a ciascun gruppo. 4

Quali sono i paesi appartenenti al cluster? Al gruppo appartengono i paesi con un alto consumo di cereali e riso, basso consumo di zucchero, alto consumo di verdure e di vino e basso consumo di latte e burro: infatti Grecia, Spagna e Italia sono tre paesi caratterizzati da una dieta mediterranea. Al gruppo appartengono paesi con basso consumo di riso, alto consumo di zucchero e latte, basso consumo di verdure e medio alto consumo di burro: cioè paesi con una dieta molto calorica, i paesi Scandinavi: Danimarca, Irlanda, Finlandia, Islanda, Norvegia, Svezia. Infine al gruppo appartengono i paesi con alto consumo di carne, patate e burro, e medio alto consumo di uova, una dieta sempre calorica ma più proteica. Selezionando l optione Information for each case si ha a disposizione anche la seguente tabella: Distances between Final Centers 87.59 0.569 87.59 86.096 0.569 86.096 La precedente tabella mostra la distanza euclidea tra i centroidi dei gruppi finali: chiaramente maggiore è tale distanza, maggiore sarà la dissomiglianza tra i tre gruppi. I tre gruppi sembrano distanti tra loro; la distanza maggiore si osserva tra il primo e il secondo, mentre il secondo e il terzo sembrano molto vicini (intuitivamente si poteva già arrivare a tale risultato). 5

Domanda : Quali variabili hanno maggiormente influenzato la determinazione dei cluster? Selezionando dal riquadro Options la casella Anova Table. Si ottiene la seguente tabella: CERE RISO PATA ZUCC VERD VINO CARN LATT BURR UOVA ANOVA Error Mean Square df Mean Square df F Sig. 704.79 48.64 4.74.08.805.97.79.075.74 84.7.56.857 8.404 9.69 4.745.08 87.0 06.07 0.860.000.4 7.556 4.87.07 65.74 0.5..9 495.880 5.557 5.89.000 7.794 4.069 4.7.05.60 4.96.07.90 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. 6

La tabella ANOVA indica quali variabili hanno maggiormente contribuito all individuazione dei cluster. Latte e Verdura risultano le due variabili significativamente associate ai cluster individuati, a seguire Cereali, Zucchero e Vino. Uova e Patate risultano invece le meno influenti nella divisione in gruppi così ottenuta. (Ricordiamo che la procedura ANOVA di SPSS richiede i gruppi bilanciati e in questo caso non lo sono, quindi i risultati ottenuti dalla precedente tabella hanno un interpretazione solo descrittiva). Le tabelle Initial Centers and Iteration History riassumono i passi necessari all algoritmo per trovare tali cluster. Dal menù Save selezioniamo Membership e Distance from cluster center; in questo modo nel file Dieta.sav, SPSS Data Editor, compariranno due colonne con le informazioni selezionate. 7

Ora dal Menu Graph, selezioniamo Box-Plot e poi Distance of Cases from è Variable, e poi Number of Cases come Category Axis. E possibile in questo modo Il risultato è un grafico diagnostico che permette di osservare le differenze tra i gruppi e la presenza di eventuali outlier. Il gruppo presenta un outlier, Irlanda, come è osservabile dalla tabella Membership, che mostra come l Irlanda sia il paese più distante dal centroide. 8

Distance of Case from its Classification Center 90 80 70 60 50 40 0 0 0 7 N = 6 7 Number of Case Proviamo a ricercare con la stessa tecnica 4 cluster. Otteniamo le seguenti tabelle: Membership Case Number 4 5 6 7 8 9 0 4 5 6 ID Distance B 7.0 DK 48.999 D 4.08 GR 4 4.498 E 4 47.905 F 40.08 IRL.000 I 4 5.09 NL 9.95 P 4.74 UK 46.586 A 8.69 FIN.0 ISL 4.8 NO.5 SV 7.989 Viene individuato un cluster con un solo oggetto, l Irlanda (ricordiamo che risultava outlier nell analisi precedente). Al secondo gruppo appartengono Danimarca, Finlandia, Islanda, Norvegia e Svezia. Al terzo gruppo appartengono Belgio, Germania, Francia, Olanda, Portogallo, UK e Austria. Infine, al quarto gruppo appartengono Grecia, Spagna e Italia. Osservando l analisi dell Anova, risulta interessante notare che la variabile consumo di patate assume importanza nel discriminare i gruppi; infatti è proprio l alto consumo di patate (visibile anche dalla Tabella Final Center) a determinare un gruppo a cui appartiene come unico paese l Irlanda. 9

CERE RISO PATA ZUCC VERD VINO CARN LATT BURR UOVA ANOVA Error Mean Square df Mean Square df F Sig. 58.08.974 4.77.07.556.9.978.7 9.04 6.64 6.4.008 0.878 8.948.554.048 554.695.679 68.84.000 898.06 9.8.07.069 55.765 49.097..8 904.766 57.475 5.775.000.75 4.0.8.085.9 5.09.074.97 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. Final Centers CERE RISO PATA ZUCC VERD VINO CARN LATT BURR UOVA 4 9.40 7.0 7.44 97..0.46 4. 5. 5.50 6.40 85.87 78.80 4.80 40.98 6.80 8. 55.00 49.88 88.89 0.0.90.46.99 4.0 05.00 7.58 9.77 89.07 85.90 77.96 07.49 75.50.40 4.46 5.4.0.40.4.7.57 0