Analisi dei gruppi (Cluster analysis)



Похожие документы
1. Distribuzioni campionarie

Tecniche di analisi multivariata

PROGETTO REGIONALE MISURAZIONE E VALUTAZIONE DELLE BIBLIOTECHE VENETE

SPC e distribuzione normale con Access

Corso di. Dott.ssa Donatella Cocca

Relazioni statistiche: regressione e correlazione

Il concetto di valore medio in generale

Capitolo 2 Distribuzioni di frequenza

Ricerca di outlier. Ricerca di Anomalie/Outlier

La distribuzione Normale. La distribuzione Normale

1 Serie di Taylor di una funzione

Algoritmi di clustering

2) Codici univocamente decifrabili e codici a prefisso.

Slide Cerbara parte1 5. Le distribuzioni teoriche

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

ANALISI DEI DATI PER IL MARKETING 2014

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

1 Applicazioni Lineari tra Spazi Vettoriali

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

FONDAMENTI DI PSICOMETRIA - 8 CFU

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

1. PRIME PROPRIETÀ 2

Codifiche a lunghezza variabile

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Metodi Frequenziali per il Progetto di Controllori MIMO: Controllori Decentralizzati

Statistica. Lezione 6

Corso di Matematica per la Chimica

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

E naturale chiedersi alcune cose sulla media campionaria x n

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

I sistemi di numerazione

La Programmazione Lineare

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

Interesse, sconto, ratei e risconti

Analisi e diagramma di Pareto

Più processori uguale più velocità?

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Sistemi Informativi Territoriali. Map Algebra

Capitolo 4 Probabilità

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano


(liberamente interpretato da SCHEDA ALUNNI. Descrizione dell attività:

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Inferenza statistica. Statistica medica 1

Ottimizzazione Multi Obiettivo

Elementi di Psicometria con Laboratorio di SPSS 1

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Dimensione di uno Spazio vettoriale

Automazione Industriale (scheduling+mms) scheduling+mms.

Luigi Piroddi

Lezione 1. Concetti Fondamentali

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Esponenziali elogaritmi

Corso di Psicometria Progredito

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Corso di Analisi Matematica Serie numeriche

LA CORRELAZIONE LINEARE

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Problema del trasporto

Capitolo 2. Operazione di limite

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

(a cura di Francesca Godioli)

Istituzioni di Statistica e Statistica Economica

INDICE PREFAZIONE VII

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Metodi statistici per le ricerche di mercato

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P P P P P P < P 1, >

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

4. Operazioni elementari per righe e colonne

SISTEMI DI NUMERAZIONE IL SISTEMA DECIMALE

Indici di dispersione

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

REGOLAMENTO DI VALUTAZIONE DEL PERSONALE DIPENDENTE

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Analisi discriminante

Test statistici di verifica di ipotesi

Ammortamento di un debito

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

Laboratorio di Pedagogia Sperimentale. Indice

3. Confronto tra medie di due campioni indipendenti o appaiati

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

Matematica generale CTF

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre Prof. L.

Un modello matematico di investimento ottimale

Транскрипт:

Capitolo 10 Analisi dei gruppi (Cluster analysis) Partendo da un collettivo multidimensionale, l analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di osservazioni omogenei al loro interno ed eterogenei tra loro. L obiettivo ultimo è dunque lo stesso dell analisi discriminante, ma in questo caso non vi sono informazioni sul numero e le caratteristiche dei gruppi nella popolazione. Mentre nell ambito delle scienze sperimentali i raggruppamenti sono generalmente preesistenti al processo di classificazione e vengono individuati semplicemente assegnando le osservazioni (analisi discriminante), nelle scienze sociali questi sono spesso il prodotto stesso del procedimento di classificazione. L individuazione delle strutture di raggruppamento insite nei dati corrisponde all esigenza di agevolare l interpretazione della realtà fenomenica (momento essenziale del procedimento scientifico). Dal punto di vista applicativo le motivazioni per la definizione di gruppi omogenei all interno di un collettivo sono molteplici: Ricerca tipologica o individuazione di gruppi di unità con caratteristiche distintive; Stratificazione di popolazioni da sottoporre a campionamento; Definizione di sistemi di classificazione o tassonomie; Ricostruzione di valori mancanti tramite le informazioni desunte dal gruppo di appartenenza individuato tramite i dati disponibili; Sintesi delle osservazioni. 135

136 A. Pollice - Statistica Multivariata Fu K. Pearson che affrontò per primo lo studio della classificazione dal punto di vista statistico, sul finire del secolo XIX. Da allora ai giorni nostri gli algoritmi di clustering si sono moltiplicati e differenziati nei diversi ambiti applicativi. In particolare dalla seconda metà degli anni 50 alcune delle tecniche di raggruppamento hanno ricevuto una più ampia trattazione teoricometodologica grazie alla corrispondenza con la teoria dei grafi (Mignani e Montanari, 1994). Successivamente, di pari passo agli sviluppi delle tecnologie di calcolo, si è posta maggiore attenzione agli aspetti algoritmici delle tecniche di raggruppamento. Attualmente si dispone di molteplici soluzioni alternative per l analisi dei gruppi. Quasi tutte le tecniche considerano una matrice di dissomiglianza che contiene le informazioni riguardanti il grado di dissomiglianza tra le diverse unità statistiche. La matrice di dissomiglianza può risultare da considerazioni soggettive sulle differenze tra le unità, come da calcoli effettuati sulla matrice dati. In questo secondo caso vi sono diversi criteri a seconda che le variabili rilevate siano, quantitative, qualitative, binarie o miste. Variabili quantitative In questo caso la dissomiglianza tra unità coincide con la distanza tra le stesse. Diverse sono le forme di distanze che vengono considerate nella pratica. Sia X una matrice dati n k, X i il vettore k-dimensionale della i-esima osservazione ed x ih il suo elemento generico. Sia inoltre S 2 l inversa della matrice di varianze e covarianze campionarie. Distanza city-block o di Manhattan Distanza euclidea Distanza di Minkowsky d ij = k x ih x jh (10.1) h=1 [ k ] 1 2 d ij = (x ih x jh ) 2 h=1 (10.2) Distanza di Mahalanobis d ij = [ k h=1 x ih x jh r ] 1 r (10.3) d ij = (X i X j ) S 2 (X i X j ) (10.4)

Cap. 10: Analisi dei gruppi 137 Nelle prime tre distanze le variabili aventi maggiore variabilità hanno un peso maggiore nella misura della dissomiglianza tra le unità. Per evitare questo inconveniente è preferibile considerare le osservazioni standardizzate oppure utilizzare la distanza di Mahalanobis. Variabili dicotomiche Si assuma ora che ciascuna x ih possa assumere valori 0 o 1 per i = 1,..., n e h = 1,..., k. La dissomiglianza tra due osservazioni X i e X j può essere rappresentata tramite la seguente tabella in cui X i X j 1 0 1 a b 0 c d a = numero di variabili che valgono 1 per entrambe le osservazioni; b = numero di variabili che valgono 1 per la i-esima e 0 per la j-esima osservazione; c = numero di variabili che valgono 0 per la i-esima e 1 per la j-esima osservazione; d = numero di variabili che valgono 0 per entrambe le osservazioni. Ovviamente con a+b+c+d = k. Questa rappresentazione può essere sintetizzata tramite due indici di dissomiglianza: il coefficiente di dissomiglianza semplice e il coefficiente di Jaccard. Il coefficiente di dissomiglianza semplice. E dato dalla proporzione delle variabili che risultano discordanti: d ij = b + c k (10.5) Il coefficiente di Jaccard risulta indicato per variabili dicotomiche asimmetriche, che indicano la presenza di una data caratteristica. In tal caso l assenza della caratteristica da entrambe le unità non dovrebbe contribuire ad aumentarne il grado di somiglianza: d ij = b + c a + b + c (10.6)

138 A. Pollice - Statistica Multivariata Variabili politomiche In analogia con quanto detto a proposito del coefficiente di dissomiglinaza semplice, indicando con c ij la frazione delle variabili che assumono lo stesso valore per le unità i-esima e j-esima, si ha Variabili miste d ij = 1 c ij (10.7) Se vengono rilevate variabili di natura diversa (qualitative, quantitative, binarie) la perdita di informazioni che implicherebbe la riduzione di tutte le variabili alla scala di precisione inferiore può essere evitata applicando l indice di Gower (1971): k h=1 d ij = 1 δ ijhs ijh k h=1 δ ijh (10.8) dove se la h-esima variabile è quantitativa ed R(h) è il suo campo di variazione, si ha s ijh = 1 x ih x jh (10.9) R(h) mentre se è qualitativa 1 se la h-esima variabile ha la stessa modalità s ijh = per le osservazioni i-esima e j-esima; 0 altrimenti. (10.10) ed in generale 1 se si conoscono i valori dell h-esima variabile per le osservazioni i-esima e j-esima (serve δ ijh = quando vi sono dati mancanti); 0 nel caso contrario, oppure in caso di accordo 0/0 per variabili binarie di tipo presenza/assenza. (10.11) 10.1 Tecniche gerarchiche di analisi dei gruppi Con questo nome si fa riferimento ai criteri per la creazione di partizioni annidate dell insieme di osservazioni di partenza. Tali criteri permettono di esplorare la struttura di raggruppamento con riferimento a livelli variabili di

Cap. 10: Analisi dei gruppi 139 omogeneità all interno dei gruppi. La considerazione delle sole partizioni annidate, piuttosto che di tutte le partizioni possibili, riduce considerevolmente i tempi dell analisi. D altro canto un errore commesso nella fase iniziale della classificazione non può più essere messo in discussione. Un elemento cruciale per la comprensione del funzionamento delle tecniche gerarchiche è la rappresentazione grafica della struttura di raggruppamento tramite diagrammi ad albero o dendrogrammi (Fig. 10.1). Sezionando il dendrogramma in corrispondenza di un certo livello di dissomiglianza si ottiene una partizione in gruppi disgiunti e omogenei dell insieme di unità. Livello di dissomiglianza X 1 X 2 X 3 X 4 X 5 Figura 10.1: Esempio di dendrogramma. Vengono definiti algoritmi aggregativi quelli che procedono per aggregazioni successive di unità, ovvero dalle foglie alla radice del diagramma ad albero. Viceversa si dicono algoritmi scissori quelli che suddividono il collettivo di partenza in gruppi di dimensioni via via più ridotte. Di conseguenza, nel caso in cui si voglia individuare un numero ridotto di gruppi, gli algoritmi scissori risultano più efficienti in termini di numero di passi da compiere. Nonostante la complessità di calcolo sia in genere di gran lunga superiore negli algoritmi scissori che in quelli aggregativi, i primi vengono comunque preferiti ai secondi. 10.1.1 Tecniche gerarchiche aggregative. Dal collettivo non suddiviso in gruppi si procede per aggregazioni successive generando gruppi sempre più numerosi. Il procedimento di raggruppamento parte dalla matrice di dissomiglianza tra elementi e procede iterativamente in due passi: (i) raggruppando gli elementi più somiglianti;

140 A. Pollice - Statistica Multivariata (ii) calcolando la matrice di dissomiglianza tra gruppi e/o elementi, avendo fissato un criterio per stabilire la distanza dei gruppi dai singoli elementi e/o dagli altri gruppi. Il procedimento si arresta quando tutti gli elementi sono aggregati in un unico cluster. Una volta stabilito l indice di dissomiglianza o la distanza tra le osservazioni, ciò che differenzia le diverse tecniche gerarchiche di clustering è esclusivamente il criterio per stabilire la dissomiglianza o la distanza tra i diversi cluster (in quanto segue, per brevità, si parla di distanze sia nel caso di osservazioni quantitative che qualitative). Metodo del legame singolo o del vicino più prossimo. La distanza tra due gruppi è data dalla minore delle distanze tra gli elementi. Un possibile effetto collaterale di questo metodo è il concatenamento tra unità appartenenti a gruppi diversi. Metodo del legame completo. La distanza tra due gruppi è data dalla maggiore delle distanze tra gli elementi, ossia dal diametro della più piccola sfera che include il gruppo ottenuto aggregando i due gruppi (metodo che dà luogo a gruppi di forma sferica). Metodo del legame medio o della media di gruppo. La distanza tra due gruppi è data dalla media delle distanze tra gli elementi dei due gruppi. Metodo del centroide. Il centroide di ciascun gruppo è definito come il punto che ha per coordinate la media delle coordinate degli elementi del gruppo. La distanza tra due gruppi è data dalla distanza euclidea tra i due centroidi corrispondenti. Ad ogni passo della procedura vengono aggregati i gruppi per i quali la distanza euclidea tra i centroidi risulta minima. Metodo di Ward. Ad ogni passo vengono calcolate le devianze associate a tutti i raggruppamenti possibili e viene effettuata l aggregazione che dà luogo al gruppo avente devianza minima. La distanza tra due gruppi è data dalla differenza tra la devianza complessiva e la somma delle devianze interne ai due gruppi, ovvero dall incremento della devianza entro i gruppi dovuto all aggregazione in questione. Metodo di Lance e Williams Riunisce in un unica formulazione i cinque metodi appena esposti. L espressione che definisce la distanza tra un generico cluster c 3 e il cluster c 1 c 2 formato al passo precedente è data da d c3,(c 1 c 2 ) = α 1 d c3,c 1 + α 2 d c3,c 2 + β + γ d c3,c 1 d c3,c 2 (10.12) legame singolo α 1 = α 2 = 1 2 β = 0 γ = 1 2 legame completo α 1 = α 2 = 1 2 β = 0 γ = 1 2

Cap. 10: Analisi dei gruppi 141 legame medio α i = n i n 1 +n 2 i = 1, 2 β = 0 γ = 0 centroide α i = n i n 1 +n 2 i = 1, 2 β = n 1n 2 (n 1 +n 2 ) 2 γ = 0 Ward α i = n 1+n 3 (n 1 +n 2 +n 3 ) i = 1, 2 β = (n 1 +n 2 +n 3 ) γ = 0 Lance e Williams (1966) suggeriscono la seguente configurazione per i parametri α 1, α 2, β e γ: α 1 = α 2, α 1 + α 2 + β = 1, β < 1, γ = 0 (10.13) 10.1.2 Tecniche gerarchiche scissorie. Considerano tutte le unità aggregate in un unico cluster e ne cercano la suddivisione in due gruppi che massimizza una certa funzione obiettivo. Ad ogni passo successivo viene effettuata la migliore suddivisione dei gruppi già individuati. Il procedimento ha termine quando ciascun cluster risulta formato da una sola osservazione (nel caso di attributi dicotomici le tecniche gerarchiche scissorie prendono anche il nome di tecniche di segmentazione binaria). Metodo K-means. Il metodo k-means (Mc Queen, 1967) inizia considerando la bipartizione del collettivo che minimizza la devianza interna ai gruppi e procede, ad ogni passo, suddividendo il gruppo avente devianza maggiore, in modo che la devianza interna complessiva risulti minima (il che equivale a massimizzare la distanza tra i centroidi dei gruppi). Tale impostazione è applicabile anche qualora si facciano K > 2 suddivisioni all interno di ogni gruppo. Questo criterio viene utilizzato anche nell ambito delle tecniche non gerarchiche di raggruppamento. Metodo di Edwards e Cavalli Sforza (1965). Dette W = W 1 + + W r e B = T W rispettivamente la matrice delle devianze e codevianze all interno di e tra r gruppi, la bipartizione viene iterata in modo da massimizzare la traccia di B. Questo metodo risulta equivalente al metodo k-means. 10.2 Tecniche non gerarchiche di analisi dei gruppi Le tecniche non gerarchiche di analisi dei gruppi consistono in generale nei seguenti due passi: (i) si individua una partizione provvisoria del collettivo in un certo numero di gruppi (tramite tecniche gerarchiche di analisi dei gruppi o informazioni a priori, specificando o meno il numero di gruppi della partizione); n 3

142 A. Pollice - Statistica Multivariata (ii) si ottimizza una funzione obiettivo modificando l assegnazione (tramite diversi metodi di programmazione matematica). Le diverse tecniche non gerarchiche si differenziano per le caratteristiche delle funzioni obiettivo. Le funzioni obbiettivo considerate nel seguito sono tutte invarianti per trasformazioni lineari dei dati. La minimizzazione della traccia della matrice W delle devianze interne ai gruppi coincide con i criteri di Edwards e Cavalli Sforza e K-means già trattati nell ambito delle tecniche gerarchiche scissorie. In alternativa si può considerare la massimizzazione della traccia di Hotelling, ovvero della traccia della matrice BW 1. Con il metodo di Forgy (1965) le unità più vicine ai centroidi dei gruppi vengono incluse negli stessi gruppi: (i) (ii) (iii) (iv) (v) si calcolano i centroidi dei gruppi della partizione iniziale; si confrontano tutte le unità con i centroidi calcolati; si ricollocano le unità nei gruppi il cui centroide risulta più vicino; si ricalcolano i centroidi; si riprende da (iii). Questo metodo è sostanzialmente analogo alla minimizzazione della traccia di W. Qualora il numero dei gruppi r che formano la partizione non sia prestabilito a priori, occorre prefissare un parametro sostitutivo, come ad esempio una soglia di distanza sufficiente per aggregare le osservazioni, ovvero la numerosità dei gruppi. 10.3 Scelta tra le tecniche di analisi dei gruppi Si possono individuare alcuni requisiti di carattere generale che devono essere posseduti da una buona tecnica di raggruppamento e che riguardano la sua oggettività, in quanto deve garantire risultati identici se applicata sugli stessi dati da persone diverse indipendentemente, la stabilità dei risultati a piccole variazioni nei dati (ad esempio l eliminazione di un unità dall analisi), l informatività del raggruppamento finale e la semplicità dal punto di vista algoritmico, con riferimento alla rapidità dell esecuzione dei calcoli ed alla quantità di memoria necessaria. Bisogna comunque sottolineare come in generale i risultati di una strategia di raggruppamento dipendano oltreché dalla tecnica utilizzata, anche dal tipo di distanza e dall uso di osservazioni grezze o standardizzate.

Cap. 10: Analisi dei gruppi 143 La scelta tra l utilizzo delle tecniche gerarchiche o di quelle non gerarchiche deve tenere conto necessariamente degli inconvenienti causati dalla rigidità delle strutture di raggruppamento annidate: un aggregazione impropria effettuata nei primi passi dell analisi viene portata avanti sino alla fine. Per questo le tecniche gerarchiche, oltre a risentire molto della presenza di errori di misura e/o osservazioni anomale, portano in generale a gruppi meno omogenei di quelli ottenibili attraverso le tecniche non gerarchiche. D altro canto dal punto di vista del calcolo le prime risultano molto meno dispendiose delle seconde (in caso di r gruppi ( r 2 ) contro 2 r 1 1 confronti per le tecniche non gerarchiche). Nel caso di un numero molto elevato di unità da raggruppare va anche considerata la quantità di memoria necessaria per effettuare l analisi: mentre per le tecniche gerarchiche bisogna tenere in memoria almeno n(n 1)/2 numeri (tanti quanti sono gli elementi della matrice di dissomiglianza delle singole osservazioni), le tecniche non gerarchiche richiedono di tenere in memoria la sola matrice dati. Dalle considerazioni applicative sin qui fatte le tecniche non gerarchiche sembrerebbero più convenienti. In realtà esse risultano troppo dispendiose dal punto di vista computazionale per le analisi di collettivi molto numerosi, essendo la convergenza ad una soluzione ottimale spesso molto lenta. Inoltre come per tutti i metodi basati sui quadrati delle osservazioni, l eventuale presenza di dati anomali può costituire un serio problema. Infine i risultati delle tecniche non gerarchiche sono modesti se non si dispone di una buona partizione iniziale fornita, ad esempio, da un analisi di raggruppamento gerarchica preliminare. Nell ambito delle tecniche gerarchiche aggregative la scelta deve essere effettuata nel rispetto della natura dei dati da analizzare. Infatti il metodo del legame singolo causa il concatenamento tra le unità. Esso è pertanto adatto ad includere dati di dimensioni anomale nei gruppi, oppure per gruppi che si sospetta abbiano forma allungata. Il metodo del legame completo risulta invece particolarmente raccomandato per variabili qualitative, mentre il metodo di Ward tende ad isolare le unità che presentano valori estremi anche di una sola variabile. Inoltre la bontà di diverse soluzioni gerarchiche può essere valutata comparativamente in termini della distorsione indotta dalla considerazione dei raggruppamenti in luogo delle singole osservazioni, tramite il coefficiente di correlazione cofenetico (Sokal e Rohlf, 1962). Siano detti cofenetici ed indicati con d ij i valori di prossimità deducibili dal procedimento gerarchico di classificazione, ovvero dal dendrogramma (la prossimità tra due osservazioni

144 A. Pollice - Statistica Multivariata è data dal livello di dissomiglianza in corrispondenza del quale entrano a far parte dello stesso gruppo). R c = [ n 1 i=1 n 1 i=1 n j=i+1 (d ij d)(d ij d ) n j=i+1 (d ij d) 2 n 1 i=1 n j=i+1 (d ij d ) 2 ] 1 2 (10.14) Nell espressione precedente d e d rappresentano rispettivamente la media delle dissomiglianze semplici e cofenetiche tra le n osservazioni. L indice R c diminuisce al crescere della distorsione del dendrogramma e i suoi valori sono in genere compresi tra 0,6 e 0,95. 10.4 Determinazione del numero di gruppi Poiché raramente nell analisi dei gruppi si conosce il numero dei raggruppamenti da individuare, esistono dei criteri per la determinazione dello stesso. Verifica della significatività del raggruppamento (Beale,1969). Viene verificata l ipotesi che passando da r 1 ad r gruppi si abbia una riduzione significativa della devianza interna ai gruppi (ovvero che i centroidi degli r gruppi siano significativamente distanti). Indicando con D 2 r la traccia della matrice delle devianze e codevianze interne W calcolata in corrispondenza di una partizione in r gruppi, tale ipotesi viene verificata tramite la statistica ( D 2 F = r 1 Dr 2 ) [ ( ) k ] 1 n r 1 r 1 2 1 (10.15) n r r D 2 r la cui regione critica asintotica è ottenuta considerando la coda destra della distribuzione F di Fisher con k e k(n r) gradi di libertà. Verifica della significatività degli autovalori. Per le tecniche non gerarchiche basate sulla traccia delle matrici W e BW 1 si può costruire il test del rapporto di verosimiglianze generalizzato per la verifica della significatività degli autovalori delle stesse matrici. L uso di test per la verifica di ipotesi in questo contesto è piuttosto dibattuto. Infatti, al crescere dell ampiezza n del collettivo, i centroidi dei gruppi risultanti da qualsiasi procedimento classificatorio risultano quasi sempre significativamente diversi. Un uso preferibile consiste nella verifica della significatività di una serie di soluzioni corrispondenti a diversi valori di r in modo da individuare quella maggiormente significativa. In alternativa si

Cap. 10: Analisi dei gruppi 145 può fare ricorso a verifiche empiriche basate su indici sintetici di derivazione euristica o su tecniche di simulazione. Nel caso dell uso di tecniche gerarchiche un modo per determinare il numero di gruppi da considerare consiste nel sezionare il dendrogramma in corrispondenza del massimo scarto tra i livelli di prossimità ai quali sono avvenute le aggregazioni. L indice di Çalinsky e Harabasz (1974), dato dall espressione C r = tr(b) n r tr(w ) r 1 (10.16) viene rappresentato graficamente in funzione del numero di gruppi r. Se il grafico presenta un punto di massimo questo coincide con la numerosità della partizione ottimale. Se il grafico è sempre crescente si può concludere che le osservazioni non presentano una struttura favorevole alla suddivisione in gruppi. Se al contrario il grafico risulta sempre decrescente le osservazioni si prestano ad una classificazione di tipo gerarchico. Anche l indice di Marriot (1971), dato da M r = r 2 W (10.17) viene rappresentato graficamente in funzione di r. Se il grafico presenta un andamento decrescente, allora non c è evidenza di raggruppamenti nel dataset, mentre se vi è un valore di M r evidentemente inferiore agli altri, il valore di r corrispondente indica il numero di gruppi ottimale da considerare.