Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2016-2017 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Tipi di analisi dei dati ANALISI MONOVARIATA considera un carattere alla volta e studia come esso si distribuisce sulle unità statistiche rilevate. Consente di pervenire ad una conoscenza più accurata dei dati. In presenza di dati campionari, è necessaria per valutare la struttura del campione. ANALISI BIVARIATA studia le relazioni tra i caratteri considerando due caratteri alla volta osservati sullo stesso collettivo di unità statistiche. ANALISI MULTIVARIATA Studia le relazioni tra più caratteri osservati sullo stesso collettivo di unità statistiche. 1

Il punto di partenza: la matrice dei dati Insieme di informazioni, numeri o codici alfanumerici, disposte su righe e colonne. Alle righe corrisponde un insieme omogeneo I Alle colonne corrisponde un insieme omogeneo J X1 X2 Xj Xp u1 x 11 x 12 x 1j x 1p u2 x 21 x 22 x 2j x 2p X = ui x i1 x i2 x ij x ip un x n1 x n2 x nj X np Tipi di matrici di dati: Unità x Variabili Caratteristiche: Righe e colonne non rappresentano gli stessi elementi : in riga sono rappresentate le unità di analisi, in colonna le variabili Insieme I= unità /Insieme J= Variabili Esempi : Tabella inventario Matrice di dati qualitativi Matrice di intensità Matrice di ranghi Matrice di preferenze Matrice di punteggi 2

Tabella inventario o matrice di dati unità/variabili Matrice di dati M np con dati di tipo misto. L applicazione di tecniche di analisi richiede la selezione e/o la parziale trasformazione delle variabili Matrice di dati qualitativi Matrice di intensità Matrice di dati Q np con caratteri di tipo qualitativo (nominale e/o ordinale). Matrice di dati I np con caratteri di tipo quantitativo (discreti e /o continui) 3

Matrice di preferenze Matrice di ranghi Matrice di dati P np che contiene il rango dato da ciascuna unità statistica ai caratteri osservati in base alla propria preferenza. I valori sono espressi da 1 a p, numero di entità da valutare Matrice di dati R np che contiene il rango assegnato a ciascuna unità statistica secondo l intensità assunta su ciascuno dei caratteri osservati I valori sono espressi da 1 a n, numero di unità da ordinare. Matrice di punteggi Matrice di dati P np che contiene valori discreti aventi un campo definito di variazione (es. 1-10; 1-5; 0-100) indicanti, per esempio, per ciascuna unità statistica un dato punteggio o l intensità di soddisfazione /insoddisfazione o il grado di accordo/ disaccordo) 4

Tipi di matrici di dati: Matrici Unità x Unità Sono matrici nxn in cui l insieme di unità I rappresentato in riga è omogeneo rispetto a quello J rappresentato in colonna. Gli elementi possono essere misure di similarità/dissimilarità fra le unità statistiche oppure di intensità di flussi in matrici di scambio Possono essere : Simmetriche se gli elementi rappresentati nel triangolo superiore alla diagonale principale sono speculari rispetto a quelle del triangolo inferiore (es. matrici di distanze geografiche) Non simmetriche : se gli elementi rappresentati nel triangolo superiore alla diagonale principale non sono speculari rispetto a quelle del triangolo inferiore Esempio di matrice unità/unità: Matrice di distanza - Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Simmetrica - La diagonale principale presenta valori nulli 5

Esempio di matrice unità/unità: Matrice di scambio - Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Non simmetrica - La diagonale principale presenta valori nulli Tipi di matrici di dati: Matrici Variabili x Variabili (pxp) Sono matrici pxp in cui l insieme di unità I rappresentato in riga è omogeneo rispetto a quello J rappresentato in colonna. Gli elementi possono essere variabili o modalità di variabili. Sono matrici di questo tipo Matrice di varianza e covarianza: i cui elementi sono indici di dispersione tra le p variabili considerate; Matrice di correlazione: i cui elementi sono indici di correlazione tra le p variabili considerate; 6

Esempio di matrice variabili/variabili Matrice di varianza/covarianza Matrice di correlazione - Quadrata - Simmetrica - Tutti gli elementi della diagonale principali sono uguali alla varianza di ciascuna delle p variabili. -Quadrata -Simmetrica - Tutti gli elementi della diagonale principali sono uguali a uno. Introduzione all analisi Multidimensionale 7

Che cosa è l Analisi Multidimensionale dei Dati? Insieme di tecniche statistiche che consentono di interpretare fenomeni complessi mediante l analisi di grandi quantità di dati I dati sottoposti ad analisi sono caratterizzati dall'osservazione congiunta di un insieme di p variabili su n unità statistiche Il concetto di dimensione viene a volte ricondotto a quello geometrico, altre volte a quello di costrutto concettuale. In tutti i casi si adotta un approccio multi-variato. Le informazioni, espresse sia in forma codificata che in linguaggio naturale, sono inserite in opportune tabelle e matrici oggetto di trattamento matematico o grafico. Lo sviluppo di queste tecniche e la loro applicazione è stata possibile grazie all avvento degli elaboratori elettronici e si sono generalizzati con la diffusione odierna dei personal computer e di adeguati software. Approccio esplorativo-descrittivo Nella sua impostazione originaria, l AMD analizza le relazioni tra le variabili sulla base degli strumenti della geometria euclidea e dell'algebra, prescindendo da qualunque assunzione probabilistica. Il suo approccio è originariamente di tipo esplorativo: si analizzano i dati per cogliere indizi utili alla formulazione di ipotesi distributive delle variabili si tratta simultaneamente con variabili numerose e spesso eterogenee riguardo al loro livello di misurazione Le tecniche di AMD possono essere dunque considerate un sottoinsieme di quello più ampio dell Analisi Multivariata che comprende anche altre tecniche di approccio non esplorativo. 8

Un approccio tipico di AMD: I principi della Scuola Francese dell Analyse des données 1. La statistica non è calcolo delle probabilità 2. Il modello deve seguire i dati non l inverso 3. è opportuno trattare simultaneamente informazioni concernenti il maggior numero possibile di dimensioni 4. Per l analisi dei fenomeni complessi è indispensabile il computer 5. L uso del computer implica l abbandono di ogni tecnica concepita prima dell avvento del calcolo automatico (Benzècri 1973) AMD: classificazione delle tecniche Criterio: Metrica Analisi metrica: adatta a variabili quantitative Analisi non metrica: applicabile a variabili di qualsiasi scala di misura Criterio: Simmetria Metodi simmetrici: non evidenziano direzioni causali, le relazioni tra le variabili sono considerate bidirezionali Metodi asimmetrici: evidenziare relazioni di dipendenza tra più sistemi di variabili. Le variabili osservate sono divise in variabili dipendenti e variabili predittive (o esplicative o indipendenti). Criterio: Linearità Relazioni lineari: si assume che la relazione che lega la variabile Y ad un gruppo di variabili X 1, X 2,,X k è esprimibile attraverso una funzione lineare delle variabili esplicative più un termine residuale Relazioni non lineari: si assume che la relazione sia di altro tipo (esponenziale, logaritmica, sinusoidale, polinomiale). 9

Alcune finalità delle tecniche di AMD Riduzione dei dati Descrizione dei dati rilevati mediante forme semplici e compatte analitiche e/o grafiche Costruzione di indici sintetici Evidenziazione strutture latenti Raggruppamento e ricerca di tipologie Definizione automatica di classi di unità più omogenee Discriminazione Identificazione delle caratteristiche che differenziano due o più insiemi di unità. Strategie di analisi Nella prassi della ricerca le tecniche di AMD vengono concatenate e possono costituire a loro volta il presupposto per l applicazione di altre tecniche. Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche statistiche combinate tra loro in vista di determinati fini conoscitivi. Esempio di strategia Matrice dati Sintesi delle variabili Ricerca di tipologie 10

Tecniche multivariate di riduzione delle variabili: L analisi in componenti principali Matrice di dati: rappresentazione geometrica Ogni riga di una matrice di dati X np quantitativi può essere rappresentata come un vettore numerico a p dimensioni che indica le coordinate del puntounità nello spazio R p detto delle unità Ogni colonna di una matrice di dati X np quantitativi può essere rappresentata come un vettore numerico a n dimensioni che indica le coordinate del puntovariabile nello spazio R n detto delle variabili 11

Glossario: Vettore e spazio vettoriale Il piano cartesiano è un esempio di spazio vettoriale Un vettore è un punto del piano cartesiano, determinato da una coppia di numeri reali (x, y). Disegnando una freccia che parte nell'origine (0, 0) e arriva in (x, y), si ottiene il significato fisico di vettore applicato nell'origine; I vettori possono essere sommati e moltiplicati per scalari e per altri vettori. Analogamente nello spazio n-dimensionale un vettore è una ennupla di numeri reali (x 1, x 2, x n ). Esempio: nuvola di punti-unità nel piano e nello spazio p dimensionale n punti in R 2 All aumentare degli n vettori di riga x i aumenta anche la numerosità dei punti rappresentati nella nuvola dei punti-unità nello spazio R p. All aumentare dei p vettori colonna aumenta la numerosità delle dimensioni dello spaziounità e dunque la complessità dei dati in analisi. n punti in R 3 12

Glossario Baricentro e Inerzia totale Il baricentro di una nuvola di punti-unità è il vettore delle medie delle variabili La dispersione totale della nuvola dei punti unità intorno al loro baricentro si definisce varianza totale o inerzia totale. Essa può essere calcolata sommando gli elementi della diagonale principale (traccia) della matrice di varianza e covarianza. L analisi in componenti principali (ACP) E una tecnica di tipo fattoriale utile per ridurre la complessità, che si propone di sintetizzare le variabili: si basa sulle correlazioni esistenti tra di esse individua una serie di p fattori comuni o componenti, di importanza decrescente. Le componenti sono: combinazioni lineari delle variabili originarie, pertanto ne sintetizzano l informazione non sono correlati tra di loro. Esempi di applicazione: Quali sono le dimensioni del benessere dei comuni italiani? In quali componenti si possono sintetizzare le valutazioni attribuite dai cittadini alle funzioni amministrative degli enti locali? In quali dimensioni possono essere sintetizzate i punteggi espressi dai clienti sulle caratteristiche di un prodotto? 13

ACP : approccio geometrico Y 2 Geometricamente, le componenti rappresentano un nuovo sistema di coordinate ottenuto ruotando il sistema originale con p assi coordinati L obiettivo è di sceglierne un numero q p che spiegano la massima parte della varianza originaria. Nell esempio la somma delle distanze al quadrato dai punti alla retta Y 1 è minimizzata Y 1 è una combinazione lineare delle variabili originarie Correlazione e riduzione 70 60 50 40 30 20 10 0 0 10 20 30 Tasso di disoccupazione r=0,976 Le caratteristiche dei punti-unità espresse dalle due variabili (le due dimensioni del piano cartesiano) possono essere riassunte da una sola dimensione (la retta) che li sintetizza. r=0,002 Non è possibile individuare una retta che riassuma le due dimensioni poiché sono indipendenti. 14

Uso del software : la correlaizone Esercizio: la correlazione Utilizzando il file qdv_esercio.sav: Ottenere la matrice di correlazione tra alcune variabili a scelta. Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione inferiore a 0.3 Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione superiore a 0.7. Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione negativo. Osservare le differenti configurazioni dei punti. 15

Analisi in Componenti Principali (ACP) : il modello A partire da un insieme di variabili quantitative originarie: X 1, X 2,, X j,, X p l ACP conduce a un insieme di variabili non osservate Y 1,Y 2,,Y q (q p) tale che ciascuna i-esima componente principale Y i sarà : Y i = w i1 X 1 + w i2 X 2 +... + w ip X p i=1,2, q Dove w ij sono i pesi associati ad ogni variabile per ogni componente ACP: calcolo della prima componente Si determineranno i pesi w 1j della combinazione lineare in modo da : rendere massima la varianza della componente stessa: var (Y 1 ) = max e sotto la condizione che la somma dei quadrati dei coefficienti w i1 della combinazione sia uguali a 1: 16

ACP: calcolo delle altre componenti La seconda componente sarà determinata con le medesime condizioni e con quella aggiuntiva che sia non-correlata con la prima, valga cioè la relazione: r (Y 1 Y 2 ) = 0 -> w 11 w 12 + w 21 w 22 + w q1 w q2 =0 Le successive componenti principali si determinano in modo analogo; si avrà quindi: e var (Y 1 ) var (Y 2 ) var (Y q ) r(y s Y k ) =0 s,k tale che s k ACP : fasi Fase 1 La matrice iniziale: variabili e trasformazioni Fase 2 La scelta del software: elaborazione Fase 3 Lettura dell output e interpretazione 17

Fase 1 Progettazione di una ACP Scelta delle variabili da analizzare: Le variabili devono essere quantitative. Si può optare per l uso di variabili standardizzate (scelta necessaria se si dispone di variabili espressi in differenti unità di misura) o non standardizzate. Fase 2 Esecuzione di una ACP Scelta del software: Si può fare ricorso a numerosi software statistici che dispongono di procedure adatte all applicazione dell ACP: SPSS, SAS, STATA, SPAD, NCSI... 18

Uso del software Spss : esecuzione ACP Fase 3 Lettura dell output e interpretazione Analisi delle variabili in input Caratteristiche dei fattori estratti: Numero e quote di varianza spiegata Comunalità Correlazioni fattori/variabili Punteggi delle variabili Punteggi delle unità Rappresentazioni grafiche 19

Analisi delle variabili in input L analisi delle statistiche descrittive monovariate precede l applicazione della tecnica multidimensionale e consente di controllare la eventuale esistenza di dati anomali o di casi mancanti. Test che ci consentono di stabilire se la struttura di correlazione delle variabili usate è adatta all applicazione di una analisi di tipo fattoriale. KMO ( varia da 0-1) deve essere >0.7 e prossimo a 1. Test di Bartlett significativo (con sig < 0.05). ACP: risultati La risoluzione del problema di massimo vincolato, applicato alla matrice di correlazione R (o a quella di varianza e covarianza S) tra le p variabili, conduce ad ogni passo a trovare : var (Y i ) = λ i (i=1,2, q) dove λ i è l iesimo autovalore della matrice R, pertanto per la condizione di varianza decrescente: λ 1 > λ 2 > λ 3 > λ q i coefficienti w 1i, w 2i,,w q1 sono l autovettore associato ad ogni λ i 20

Le caratteristiche dei fattori : numero e quote di varianza spiegata Nell ACP il numero dei fattori estraibili è pari al numero delle variabili (nel nostro esempio 10). A ciascun fattore è associato un autovalore i (eigenvalue) e una quota di varianza decrescente i / ) i (i=1,2, q) Considerando soltanto alcuni fattori la varianza spiegata è inferiore a 100. Quanti fattori considerare? Non esistono regole tassative, ma possono essere seguiti diversi criteri empirici: fissare un livello minimo di percentuale cumulata di spiegazione della varianza e considerare fattori che cumulativamente consentono di raggiungere la soglia prefissata; - Si potrebbe richiedere che i fattori tengano conto mediamente di almeno il 95% della varianza di ognuna delle p variabili originarie, cioè 0,95 p x 100 Al crescere del numero di variabili ci si può accontentare di una % minore scegliere i fattori con autovalore >1 a prescindere dalla percentuale di varianza (Kaiser) se le variabili sono standardizzate, oppure almeno pari alla varianza media ( somma degli autovalori/ p); rappresentare graficamente gli autovalori rispetto all ordine di estrazione (scree test) e collegarli con una spezzata. Si considerano rilevanti quei fattori i cui autovalori si collocano prima del punto di flesso della spezzata (Cattel). 21

Scree test La bontà della riduzione: la comunalità Per valutare la bontà dell operazione, che riduce il numero di dimensioni da p a q (ossia da 10 a 2), possiamo fare riferimento alla comunalità di ciascuna variabile originaria: Misura la percentuale di varianza di ciascuna variabile spiegata dalle componenti estratte 22

Il significato di ogni fattore : le correlazioni con le variabili I coefficienti di correlazione tra ogni fattore e le variabili originarie consentono di attribuire alla dimensione sintetica un etichetta : il segno del coefficiente indica il tipo di relazione lineare diretta (+) o inversa (-); L entità del coefficiente indica la forza della relazione. Il grafico delle componenti Se si disegna un cerchio di raggio=1, la prossimità delle variabili alla circonferenza e all asse evidenzia la correlazione prossima a 1. La lontananza indica una correlazione debole. 23

Esercizio ACP Utilizzando il file qdv_esercizio.sav, considerare le variabili riguardanti il tenore di vita e il tempo libero. Applicare una ACP al fine di individuare dimensioni sintetiche. Interpretare l output ottenuto, e in particolare: motivare la scelta del numero di fattori individuare le variabili meglio e peggio rappresentate nel nuovo sistema di riferimento attribuire un etichetta concettuale alle dimensioni considerate, motivando la scelta. La rotazione delle componenti Per agevolare la interpretazione delle componenti si può applicare una rotazione ortogonale degli assi fattoriali in modo da minimizzare il numero di variabili che sono fortemente correlate con ogni fattore. Il peso dei fattori è così distribuito più uniformemente e l interpretazione dei fattori è semplificata. Questo tipo di rotazione è denominata Varimax 24

La rotazione modifica: -l autovalore e la % di varianza spiegata da ciascuna componente; - la matrice delle componenti I punteggi fattoriali Punteggi delle variabili sui fattori Punteggi delle unità sui fattori autovettori standardizzati: w ij / ij ) 25

ACP: i punteggi in SPSS Il punteggio (score) di ogni componente è definito da: Y i = w i1 X 1 + w i2 X 2 +... + w ip X p dove w ij è il peso (autovettore) della prima componente e della iesima variabile Avendo imposto la condizione di normalizzazione i pesi hanno media nulla e varianza pari all autovalore di ogni componente. Ciò riflette l importanza di ogni componente ma presenta lo svantaggio di non rendere direttamente comparabili le diverse componenti. A tal fine si possono ricavare pesi standardizzati, con varianza unitaria, dividendo per ogni fattore l autovettore per la radice quadrata del rispettivo autovalore. SPSS adotta poi diverse procedure per calcolare i punteggi delle unità statistiche sulle componenti. Per ogni unità statistica il punteggio sul fattore è la sua coordinata nel nuovo sistema di riferimento (cfr. grafico slide precedente). Esercizio ACP Riprendendo l applicazione ACP precedente: Salvare i punteggi fattoriali delle unità di analisi Ottenere delle graduatorie decrescenti delle unità di analisi in base ai punteggi ottenuti. Ottenere un grafico fattoriale delle prime due componenti. Commentare i risultati ottenuti. 26

Introduzione alla Cluster analysis Tecniche e software Individuare tipologie. è uno degli scopi della classificazione Classificare vuol dire individuare differenze e somiglianze tra elementi di un insieme, distinguere - come affermava Linneo il simile dal dissimile per rendere più chiara la nostra interpretazione della realtà scegliere un punto vista su cui basare tale distinzione Nella ricerca empirica significa osservare e rilevare le modalità assunte da una o più variabili sulla base delle quale raggruppare le unità di analisi in un numero finito di gruppi, in modo tale che le unità di un gruppo siano omogenee rispetto alle variabili considerate. Nelle ricerche di mercato è utile per suddividere consumatori, prodotti, servizi o contesti territoriali in sottoinsieme omogenei. 27

Tecniche automatiche per individuare tipologie: Cluster Analysis (analisi dei gruppi classification automatique) La cluster analysis è un insieme di tecniche multivariate esplorative, basate sull'assunzione che le variabili e le unità statistiche possono essere considerate delle dimensioni del fenomeno studiato rappresentabili su spazi geometrici. I gruppi omogenei vengono ottenuti in modo induttivo, automaticamente (unsupervised classification), mediante l applicazione di algoritmi e non con criteri soggettivi. La classificazione a cui consente di pervenire si fonda sul concetto di prossimità (dissimilarità / similarità ) tra le diverse unità nello spazio, definito da un sistema di assi cartesiani ciascuno dei quali riporta i valori assunti da una delle variabili rilevate. Individuazione di tipologie Esempio 24 22 20 18 Lombardia Emilia Romagna Veneto Trentino M arche Valle Lazio Toscana d'aosta Piemonte Friuli Liguria Umbria Ogni regione viene rappresentata sul piano come un punto che ha come coordinate i valori assunti in ognuna delle due variabili. Tanto più le regioni sono vicine sul piano tanto più sono simili rispetto alle due variabili considerate (es. Lombardia ed Emilia Romagna ; Valle d Aosta- Toscana) Abruzzo 16 Sardegna M olise 14 Calabria Puglia Campania 12 Basilicata Sicilia 10 40 50 60 % pop. usa posta elettronica 70 80 Tanto più le regioni sono distanti sul piano tanto più sono diverse rispetto alle due variabili considerate (es. Basilicata ed Emilia Romagna) I gruppi omogenei si possono individuare in base alla distanza : deve essere minima all interno di un gruppo e massima tra gruppi diversi. 28

Tipi di dati Matrice di dati Xnp Matrice di dissimilarità Xnn d(i, j) misura di dissimilarità tra dati Matrice di similarità Xnn d (i, j)=sim= misura di similarità tra dati Dissimilarità e distanza La scelta della misura di dissimilarità è fondamentale nella strategia operativa della cluster analysis ed è condizionata dal tipo di variabili sulla base dei quali si vuole effettuare la classificazione. Le misure di dissimilarità soddisfano le seguenti proprietà: 1. d (a,b)=0 se a=b (identità); 2. d(a,b) 0 se a b (non negatività) 3. d(b,a)=d(a,b) (simmetria); se a queste tre proprietà si aggiunge anche la seguente: d(a,c) <= d(ab)+d(bc) (diseguaglianza triangolare). si ottengono misure di distanza, utilizzabili per variabili quantitative. 29

Alcune distanze per variabili quantitative distanza euclidea (E) la distanza City Block (assoluta)o di Manhattan (AB+BC) B C E la distanza di Mahalanobis che considera le varianze e covarianze tra i caratteri considerati e consente di ottenere distanze depurate dalla interdipendenza eventualmente presente tra le variabili. A A B Matrice di distanze: esempio Matrice delle distanze Caso 5:Veneto 6:Friuli0Venezia Giuli 7:Liguria 8:Emilia Romagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania Questa è una matrice di dissimilarità Distanza euclidea 6:Friuli0Ve 8:Emilia 5:Veneto nezia Giuli 7:Liguria Romagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania,000 4,140 7,628 3,471 2,617 5,314 9,849 5,131 12,402 12,126 15,795 4,140,000 8,857 4,100 2,309 4,624 12,020 6,818 13,412 12,572 16,010 7,628 8,857,000 10,913 6,815 4,554 3,624 2,500 4,789 4,623 8,288 3,471 4,100 10,913,000 4,528 7,716 13,315 8,458 15,700 15,255 18,881 2,617 2,309 6,815 4,528,000 3,189 9,800 4,604 11,517 10,878 14,451 5,314 4,624 4,554 7,716 3,189,000 8,065 3,330 8,846 7,948 11,413 9,849 12,020 3,624 13,315 9,800 8,065,000 5,204 4,123 5,308 8,228 5,131 6,818 2,500 8,458 4,604 3,330 5,204,000 7,272 7,072 10,749 12,402 13,412 4,789 15,700 11,517 8,846 4,123 7,272,000 1,838 4,111 12,126 12,572 4,623 15,255 10,878 7,948 5,308 7,072 1,838,000 3,677 15,795 16,010 8,288 18,881 14,451 11,413 8,228 10,749 4,111 3,677,000 Caratteristiche: È quadrata: gli elementi in riga sono uguali a quelli in colonna E simmetrica rispetto alla diagonale principale Gli elementi della diagonale principale sono uguali a 0. 30

Misure di dissimilarità e similarità per dati binari Tabella di contingenza per coppie di dati binari: Coefficiente di matching semplice: Coefficiente di Jaccard: Distanza euclidea per dati binari: Le variabili categoriali possono essere trasformate in variabili binarie e si possono utilizzare queste stesse misure. Cluster analysis : tipi di tecniche Cluster gerarchica aggregativa: Utilizza algoritmi che partendo da un numero n di gruppi pari al numero dei casi, attraverso un procedimento iterativo di n-1 passaggi, conduce ad un gruppo unico in cui sono raggruppati tutti i casi originari. Genera un albero di aggregazione o dendrogramma. Cluster analysis non gerarchica: parte da una situazione di un numero di gruppi predeterminato a priori e giunge ad una partizione che ottimizza (utilizzando una funzione obiettivo) la suddivisione in gruppi. conduce a un'unica partizione dei dati da analizzare, comporta pertanto ipotesi precise circa le modalità di strutturazione del collettivo statistico considerato e,a volte, la scelta delle unità intorno alle quali aggregare le altre unità del gruppo. Si utilizza soprattutto quando le unità in analisi sono molto numerose. Tecniche miste: che utilizzano sia algoritmi gerarchici che non gerarchici. 31

Cluster Analysis: fasi Fase 1 Fase 2 Fase 3 La matrice iniziale La scelta del software e dell algoritmo: elaborazione Lettura dell output e interpretazione Fase 4 Descrizione dei gruppi ottenuti Fase 1 Progettazione di una Cluster Analysis: la matrice iniziale Scelta delle variabili in base alle quali raggruppare le unità statistiche: Le variabili possono essere quantitative o qualitative. Se le variabili sono quantitative si può optare per l uso di variabili standardizzate o non standardizzate. Il tipo di variabili incide sul tipo di misura di prossimità (similarità o dissimilarità) da utilizzare Il numero delle unità statistiche incide sul tipo di tecnica (gerarchica o non gerarchica) di cluster adottabile. 32

Fase 2 Uso del software : Cluster analysis Cluster gerarchica: si possono calcolare le distanze -Tra due unità statistiche Tra una unità ed un gruppo di unità 24 22 Lombardia Emilia Romagna Veneto Trentino Tra due gruppi di unità 20 18 16 14 12 10 40 M arche Valle Lazio Toscana d'aosta Piemonte Friuli Liguria Umbria Abruzzo Sardegna M olise Calabria Puglia Campania Basilicata Sicilia 50 60 70 80 Si possono adottare diverse soluzioni per misurare le distanze tra gruppi di unità, considerando: le distanze fra le medie dei gruppi (group means) le distanze fra le loro unità più vicine (nearest neighbour) le distanze fra le loro unità più lontane (furthest neighbour) La media delle distanze fra tutte le unità di un gruppo e tutte quelle dell altro (group average) % pop. usa posta elettronica 33

Cluster gerarchica : algoritmo Matrice dati Input: N Unità x p indicatori Scelta della misura di distanza: - tra unità - tra gruppi Matrice distanze D=min Formazione gruppo si no C=N-1? Un gruppo di N unità Le differenti misure di distanza tra gruppi caratterizzano diversi metodi di cluster gerarchica aggregativa Fase 2 Uso del software:cluster gerarchica 34

Cluster gerarchica aggregativa Alcuni metodi di raggruppamento Metodo del legame singolo (nearest neighbour ) : la distanza tra il gruppo A e il gruppo B è la distanza minore tra le unità del gruppo A e quelle del gruppo B. I gruppi che si ottengono hanno forma allungata a losanga. Metodo del legame completo (furthest neighbour ): la distanza tra il gruppo A e il gruppo B è la distanza maggiore le unità del gruppo A e quelle del gruppo B. I gruppi che si ottengono hanno forma circolare. Cluster gerarchica aggregativa Alcuni metodi di raggruppamento Metodo legame medio fra i gruppi: considera la media di tutte le distanze possibili tra i casi all'interno di un cluster nuovo singolo determinato dalla combinazione di un cluster A e di un cluster B. Metodo della media entro i gruppi: la distanza tra il gruppo A e il gruppo B è data dalla media aritmetica delle distanze tra ogni unità del gruppo A e ogni unità del gruppo B. Metodo di Ward: Per ogni gruppo viene calcolata la media di tutte le variabili Viene poi calcolata la distanza euclidea di ogni unità dalla media del gruppo Vengono sommati i quadrati delle distanze per tutte le unità Ad ogni step di aggregazione vengono fusi i gruppi per i quali risulta minimo l'incremento della somma dei quadrati delle distanze all'interno del gruppo. 35

d i m e n s i o n 0 Fase 3 Lettura dell output Programma di agglomerazione e dendrogramma Programma di agglomerazione Il processo di agglomerazione delle unità indica i vari step con cui le unità vengono aggregate in corrispondenza a un indice di distanza che aumenta al crescere dei passi di agglomerazione. Il dendrogramma rappresenta graficamente tale processo. Stadio Cluster accorpati Stadio di formazione del cluster Stadio Coefficienti Cluster 1 Cluster 2 Cluster 1 Cluster 2 successivo 1 31 42 4591,350 0 0 37 2 11 23 5464,530 0 0 30 3 29 93 7445,270 0 0 22 4 6 49 7623,230 0 0 26 5 12 16 7660,920 0 0 23 6 20 71 8499,170 0 0 38 7 77 103 8979,810 0 0 32 8 22 52 9129,370 0 0 40 9 53 81 9208,590 0 0 40 10 64 65 9628,290 0 0 20 11 1 30 9776,430 0 0 27 12 21 44 9848,570 0 0 34 13 7 69 10383,720 0 0 25 14 19 91 10597,110 0 0 33 15 48 68 11512,560 0 0 47....... 86 14 36 94970,380 78 63 92 87 9 18 99761,677 81 62 94 88 2 3 102031,156 82 85 90 89 1 6 102913,471 77 80 91 90 2 31 114558,490 88 74 95 91 1 19 139465,534 89 84 94 92 14 55 143272,756 86 79 95 93 79 94 146681,990 0 0 97 94 1 9 183965,139 91 87 98 95 2 14 207466,536 90 92 96 96 2 15 229907,319 95 0 99 97 72 79 239277,085 0 93 101 98 1 37 266105,127 94 0 100 99 2 4 374810,001 96 0 100 100 1 2 427052,823 98 99 102 101 54 72 559967,397 0 97 102 102 1 54 1122564,349 100 101 0 Tagliare un dendrogramma (albero di aggregazione) 3 gruppi 4 gruppi 5 gruppi 36

Quali criteri adottare per tagliare un dendrogramma? Sezionare l albero all altezza del massimo salto tra i livelli di distanza a cui sono avvenute le aggregazioni g+1 d- g d=max Sezionare l albero dove si trovano i gruppi coesi, applicando test statistici ad hoc (es: test di Beale, lambda di Wilks, ecc.) La valutazione di un gruppo è effettuata sia riguardo alle proprietà statistiche sia in termini sostanziali, analizzando cioè le caratteristiche dei gruppi ottenuti. Fase 4 Descrizione dei gruppi L intervallo di soluzioni salvato genera nella matrice nuove variabili categoriali che indicano per ciascuna unità statistica l appartenenza ai gruppi ottenuti nelle diverse soluzioni. Queste nuove variabili possono essere utilizzate per descrivere mediante ulteriori analisi le caratteristiche dei gruppi ottenuti. 37

Esercizio: Applicazione di una cluster gerarchica Utilizzando il file regioni.sav, applicare una tecnica di Cluster gerarchica aggregativa su variabili standardizzate. Ispezionare il dendrogramma Reiterare l analisi salvando l appartenenza ai gruppi in corrispondenza della partizione ritenuta ottimale. Descrivere i gruppi ottenuti. Strategia di analisi per l individuazione di tipologie Scelta di una o più variabili, indicatori di un fenomeno Individuazione di unità aventi caratteristiche simili rispetto agli indicatori considerati: tipi o gruppi omogenei [ Scelte da effettuare: tipo di cluster analysis, misure di prossimità tra unità e tra gruppi, numero di gruppi,.] Descrizione dei gruppi sulla base degli indicatori iniziali e di altre variabili che agevolano l interpretazione 38