Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:

Transcript

1 LA SEGMENTAZIONE DEL MERCATO Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di: 1) valutare le caratteristiche, i bisogni e i comportamenti probabili degli acquirenti potenziali 2) identificare domande di tipo diverso da parte dei consumatori, allo scopo di adattare in modo conforme i prodotti e le attività relative di marketing agli specifici bisogni che queste domande esprimono 3) delimitare il mercato in cui intende operare suddivisione, cioè segmentazione, del mercato in gruppi omogenei al loro interno e distinti tra loro di consumatori che si presume richiedano specifici prodotti e verso i quali si dovranno indirizzare specifiche politiche di vendita al fine di adeguare i prodotti e le strategie di marketing alle differenze ravvisabili nelle esigenze manifestate dai consumatori 1

2 Adottare una strategia di segmentazione significa, quindi, riconoscere esplicitamente l esistenza di elementi di eterogeneità entro un mercato. Le informazioni a partire dalle quali trova applicazione una strategia di segmentazione riguardano: aspetti demografici, economici, sociali e psicografici dei consumatori; caratteristiche legate alle situazioni di consumo (tipologie di acquisto e di utilizzazione del prodotto, benefici attesi, risposte a variabili presenti nell offerta di marketing dell azienda, ecc.). Le variabili a disposizione possono assolvere al ruolo di: basi, se generano direttamente il processo di classificazione in gruppi delle unità statistiche in osservazione descrittori, se entrano in gioco solo nella fase di interpretazione dei profili dei segmenti Tipologie di segmentazione a priori a posteriori 2

3 Modelli di segmentazione a priori Suddivisione del collettivo in esame a seconda delle modalità presentate da una o più basi, specificate a priori L attività di segmentazione si riduce ad una semplice classificazione delle unità statistiche in classi preventivamente definite Tecniche statistiche di partizione ricorsiva (alberi di classificazione), come l Automatic Interaction Detection (AID), la Chi-squared Automatic ID (CHAID), e Classification And Regression Trees (CART) per: individuare i descrittori dei profili dei segmenti ottenere una descrizione sintetica del profilo stesso Modelli di segmentazione a posteriori Si basano sull applicazione di algoritmi di raggruppamento (clustering) Si differenziano dai precedenti per il modo in cui viene selezionata la base di segmentazione: manca una scelta a priori non sono prefissati, in generale, né il numero, né le tipologie dei gruppi da formare 3

4 I segmenti sono determinati attraverso la classificazione delle unità statistiche effettuata sulla base del grado di dissomiglianza rispetto ad un insieme di variabili (comportamenti, bisogni, attitudini dei consumatori, lo stile di vita, ecc.. ) E' importante tenere in considerazione la stabilità nel tempo delle tipologie individuate: l individuo attribuito ad un certo segmento, continuerà a fare parte dello stesso segmento nel corso del tempo e/o in situazioni ambientali diverse? L analisi di segmentazione prevede nell'ordine: 1. la determinazione dei segmenti 2. l identificazione del loro profilo sulla base di specifiche caratteristiche degli intervistati Per comprendere appieno la struttura dei segmenti selezionati è necessario valutare il loro grado di omogeneità e identificarne, in particolare, l ampiezza relativa e la composizione. Nella fase 2 si esamina l esistenza di differenze significative in senso statistico fra i valori medi o le frequenze relative assunti nei segmenti dalle variabili che ne descrivono i profili. 4

5 ANALISI DEI GRUPPI - AG (cluster analysis) Consideriamo un certo numero (n) di unità su cui abbiamo osservato p fenomeni (variabili). Obiettivo: Individuare gruppi di osservazioni all interno dei quali le osservazioni siano simili (omogenei al loro interno) ed eterogenei tra di loro (gruppi distinti). Tale omogeneità/disomogeneità si riferisce all insieme delle variabili osservate Attenzione: non sappiamo a priori se tali gruppi esistono effettivamente Attraverso l AG, una realtà molto variegata viene semplificata e ricondotta ad alcune tipologie più leggibili: CLASSIFICAZIONE 5

6 Ad esempio X2 3,5 3 2,5 2 1,5 1 0, X1 X X1 Gruppi ben definiti Gruppi non ben definiti correlazione bassa correlazione elevata L'obiettivo è quello di realizzare un raggruppamento rispetto a p fenomeni abbiamo bisogno di un algoritmo non banale (per p>3 la rappresentazione grafica non ci aiuta) Osservazione di p variabili X, X 2,, X s,, X 1 p con riferimento ad n individui (i=1,,n): 6

7 MATRICE dei dati X, dim. n x p Matrice di dissomiglianza tra le unità (distanze o dissimilarità). dim. n x n x xi xn x x 1s x is ns x1 p xip xnp D = d11 = d 21 di1 dn1 0 d 12 d 1 j d ij d 1n 0 Il raggruppamento delle unità avviene sulla base della matrice D Vedremo che la scelta del tipo di d ci condurrà all impiego di diversi algoritmi di raggruppamento 7

8 Impieghi dell AG in ambito economico-aziendale Identificazione di gruppi di: consumatori (o utenti di un certo servizio pubblico) sulla base di: comportamento al consumo opinioni sul prodotto importanza assegnata a varie caratteristiche di un prodotto (segmentazione del mercato) strutture di servizi secondo varie caratteristiche che ne definiscono l efficienza marche di un certo prodotto secondo varie caratteristiche aziende secondo caratteristiche legate ai rapporti con l estero FASI dell AG Scelta delle variabili ed eventuale trasformazione delle stesse Scelta della misura di dissomiglianza Scelta dell algoritmo di raggruppamento Valutazione della partizione ottenuta e scelta del numero ottimale di gruppi Interpretazione dei risultati ottenuti (connotazione dei gruppi) 8

9 Scelta delle variabili La metodologia statistica è di scarso aiuto, è necessaria una buona conoscenza del fenomeno (l impiego di variabili con scarso potere discriminatorio può rendere confusa la classificazione) Se numero elevato di variabili: AG sui punteggi delle prime k CP Trattamento preliminare delle variabili Generalmente variabili espresse nella stessa scala di misura Se variabili quant. espresse secondo diverse unità di misura/diverso ordine di grandezza: standardizzazione Scelta della misura di distanza/dissimilarità Variabili quantitative: indice di distanza Variabili qualitative: indice di dissimilarità e quindi ci si basa sulle caratteristiche delle singole metriche (ad es. proprietà) la più usata è la distanza euclidea (var. quant.) se var. correlate: dist. di Mahalanobis (var. quant.) può essere opportuno verificare la stabilità dei risultati con vari tipi di distanza/diss. 9

10 Scelta dell algoritmo di raggruppamento, di tipo Gerarchico Non gerarchico I metodi gerarchici consentono di ottenere un insieme di gruppi ordinabili secondo livelli crescenti, con un numero di gruppi da n ad 1: al livello iniziale ogni unità costituisce un gruppo negli stadi intermedi si aggregano gli elementi in gruppi via via sempre più numerosi al livello finale tutte le unità sono riunite in un unico gruppo la scelta del numero dei gruppi avviene contestualmente. (metodi aggregativi o bottom-up, ve ne sono anche di scissori) I metodi non gerarchici forniscono un unica partizione delle n unità in g gruppi, e g deve essere specificato a priori 10

11 Scelta del numero ottimale di gruppi Negli algoritmi di tipo gerarchico avviene, sostanzialmente, sulla base principio per cui non bisogna accorpare gruppi troppo diversi tra loro. Valutazione della partizione ottenuta L esistenza dei gruppi non è scontata, potremmo aver ottenuto una partizione che non esiste nella realtà. La classificazione ottenuta fornisce gruppi: i) composti ognuno da unità simili, e ii) distinti tra loro? Interpretazione dei risultati ottenuti Quali sono le caratteristiche di ognuno dei gruppi ottenuti?.differenze. Come si intuisce, è necessario effettuare alcune scelte che introducono elementi di soggettività: è importante la stabilità della soluzione 11

12 METODI DI RAGGRUPPAMENTO DI TIPO GERARCHICO (aggregativo) Genera una famiglia di partizioni delle n unità, a partire da quella banale di n gruppi a quella in cui tutte le unità sono riunite in 1 gruppo Si determinano diversi livelli di partizioni (che corrispondono ad un diverso numero di gruppi) ed i gruppi che si ottengono ad ogni livello comprendono i gruppi ottenuti ai livelli inferiori quando due o più unità sono state unite ad un certo livello della procedura, esse non saranno più separate A questi diversi livelli corrispondono diversi livelli di omogeneità: una partizione in g gruppi sarà caratterizzata da una maggiore omogeneità interna rispetto alla partizione in g-1 gruppi N.B. : Abbiamo parlato di somiglianza/dissomiglianza (o di omogeneità/eterogeneità) TRA ed ENTRO Nel seguito sarà usato il termine distanza, più familiare (anche se, a rigore, dovremmo usare il termine dissomiglianza che è più generale) e si preciserà di volta in volta se l algoritmo può essere usato sia per variabili quantitative (distanza Euclidea, di Mahalanobis, ecc.), sia per variabili qual. (indici di similarità) o solo per variabili quant. 12

13 Fasi per la realizzazione di una procedura gerarchica di raggruppamento a) Si calcola la matrice delle distanze D (simmetrica e n x n) b) Si individuano in D le due unità più simili (con minore distanza) e si riuniscono in un unico gruppo n-1 gruppi c) Si calcola una nuova matrice di distanza tra gruppi (n-1 x n-1) D 1 d) Si individuano in D 1 i due gruppi con minore distanza e si riuniscono in un unico gruppo n-2 gruppi Se vi sono q coppie alla stessa distanza si fondono tutte le coppie ed i gruppi saranno n-(2q-1) e) Si ripetono le fasi c) e d) fino ad arrivare ad un unico gruppo Fase 1 n gruppi Fase 2 n-1 gruppi. Fase k n-k+1 gruppi. Fase n 1 gruppo Vi sono vari metodi gerarchici a seconda del criterio utilizzato per calcolare la distanza tra i gruppi (non ancora definita!) La procedura descritta è valida anche per variabili qualitative: si parlerà, in tal caso, di maggiore similarità in luogo di maggiore distanza 13

14 Dendrogramma Procedura sopra descritta rappresentata graficamente mediante un diagramma ad albero In ascissa sono riportate le distanze tra i gruppi che si fondono (a volte riscalate, ponendo uguale a 25 il livello di distanza al quale tutte le unità formano un unico gruppo) Rescaled Distance Cluster Combine Num C A S I 4 òûòòòòòòòòòòòòòòòòòø 5 ò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 2 òûòòòòòòòòòòòòòòòòò ó 6 ò ó 1 òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 3 òòòòò Andando da sx a dx, via via che il numero dei gruppi diminuisce, aumenta la distanza tra i gruppi che si fondono (e aumenterà la disomogeneità interna ai gruppi) il dendrogramma viene impiegato per scegliere il num. dei gruppi 14

15 Definizione della distanza tra due gruppi metodi di raggruppamento del legame singolo del legame completo del legame medio del centroide di Ward Consideriamo due gruppi C e G rispettivamente di numerosità n1 ed n2. Metodo del legame singolo (del vicino più vicino) La distanza tra i due gruppi C e G è definita come la più piccola (il minimo) tra tutte le n 1 n 2 distanze che si possono calcolare tra ciascuna unità i di C e ciascuna unità j di G: d(c,g)=min(dij) i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita 15

16 Esempio: Consideriamo sei dipendenti di un azienda (ad esempio in forze in una certa divisione) che sono stati valutati per le loro prestazioni lavorative in termini di: cortesia competenza capacità di lavorare in gruppo p=5 flessibilità n=6 capacità organizzative unità cortesia competenza gruppo flessibilità organizza

17 Statistiche descrittive cortesia competenza cap. a lav. in grupp flessibilità cap. organizzative Validi (listwise) Deviazione N Minimo Massimo Media std ,67 2, ,83 1, ,17 1, ,33 1, ,00 1,67 6 Var. quantitative, stessa unità di misura, con medie e varianze simili: operiamo sulle variabili originarie e impieghiamo la distanza euclidea Passi della procedura di raggruppamento impiegando il metodo del legame singolo: Passo 1: matrice delle distanze tra unità Unità ,43 2,65 5,92 5,20 9,90 2 9,43 7,35 3,74 4,69 1,73 3 2,65 7,35 4,00 3,16 7,81 4 5,92 3,74 4,00 1,41 4,12 5 5,20 4,69 3,16 1,41 5,20 6 9,90 1,73 7,81 4,12 5,20 I due individui più vicini sono il 4 e il 5: la prima partizione in 5 gruppi è 1, 2, 3, (4,5), 6 17

18 Passo 2: Calcolo delle distanze tra il gruppo (4,5) e le restanti unità: d [1,4]= 5,92 scelgo quella min tra le due d [1,(4,5)]= 5,20 d [1,5]= 5,20 d [2,4]= 3,74 d [2,(4,5)]= 3,74 d [2,5]= 4,69 d [3,4]= 4 d [3,(4,5)]= 3,16 d [3,5]= 3,16 Nuova matrice delle distanze: Unità , ,43 2,65 5,20 9,90 2 9,43 7,35 3,74 1,73 3 2,65 7,35 3,16 7,81 4,5 5,20 3,74 3,16 4,12 6 9,90 1,73 7,81 4,12 I gruppi più vicini sono il gruppo costituito dall unità 6 e quello costituito dall unità 2 seconda partizione in 4 gruppi è 1, (2,6), 3, (4,5) 18

19 Passo 3: Si calcolano le distanze tra (2,6) e 1, 2, 3 come sopra Calcolo delle distanze tra (2,6) e (4,5): d [2,4]= 3,74 d [(2,6),(4,5)]= 3,74 d [2,5]= 4,69 d [6,4]= 4,12 d [6,5]= 5,20 Nuova matrice: Unità 1 2,6 3 4,5 1 9,43 2,65 5,20 2,6 9,43 7,35 3,74 3 2,65 7,35 3,16 4,5 5,20 3,74 3,16 I gruppi più vicini sono il gruppo costituito dall unità 1 e quello costituito dall unità 3 terza partizione in 3 gruppi è (1,3), (2,6), (4,5) 19

20 Passo 4:.2 gruppi (1,3,4,5), (2,6) stadio Distanza di fusione Distanza di fusione riscalata 1 1 (5 gruppi) 1, (4 gruppi) 1,73 3, ,65 13, ,16 18, ,74 25, Dendrogramma metodo del legame singolo C A S E Label Num òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 5 ò ùòòòòòòòòòòòòòòòø 1 òòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòò ó 3 òòòòòòòòòòòòòòòòòòòòò ó 2 òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 6 òòòòò 1 Ponendo min=minimo della dist. di fusione (1,41) e max= massimo della dist. di fusione (3,74), le distanze riscalate dr s, si ottengono dalle distanze di fusione originarie df s, in cui s indica lo stadio nel seguente modo: dr s =[25*(df s -min)]/(max-min) con dr 1= df 1 20

21 Metodo del legame completo (o del vicino più lontano) La distanza tra i due gruppi C e G è definita come il massimo tra tutte le n 1 n 2 distanze che si possono calcolare tra ciascuna unità i di C e ciascuna unità j di G: d(c,g)=max(dij) i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita Metodo del legame medio La distanza tra i due gruppi C e G è definita come la media aritmetica delle n 1 n 2 distanze tra ciascuna unità i di C e ciascuna unità j di G: d(c,g)= 1 n n d ij n1n 2 i= 1 j= 2 i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita 21

22 Alcune considerazioni.. Metodo del legame singolo: individua gruppi non necessariamente sferici (metodo non legato alla forma del cluster) che possono risultare scarsamente omogenei al loro interno (effetto catena) interessante per individuare cluster di forma non sferica Metodo del legame completo: individua gruppi sferici e compatti Metodo del legame medio: buon compromesso tra i precedenti Si noti che i tre metodi presentati possono essere usati sia con distanze sia con indici di dissimilarità - variabili qualitative. 22

23 I metodi seguenti richiedono variabili quantitative. Quindi, quando nel seguito parliamo di distanza intendiamo calcolabile su variabili quantitative, ad es. d. euclidea, di Minkowski, di Mahalanobis, ecc.) Metodo del centroide La distanza tra i due gruppi C e G è definita come la distanza tra i rispettivi centroidi d(c,g)=d( x C, x G ) i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita. Problemi legati al fatto che la distanza di fusione ad un certo stadio (k gruppi) può essere inferiore a quella rilevata in una fusione successiva (k-1 gruppi) e questo rende difficile la scelta del numero dei gruppi effettuata attraverso il dendrogramma e l interpretazione dei risultati 23

24 Metodo di Ward (forse il più utilizzato), impiegato con la distanza euclidea quadr. Avvertenza: tale metodo può essere impiegato con variabili quantitative e con qualsiasi distanza calcolabile per tale tipo di variabili. Per semplicità, sarà, tuttavia, presentato impiegando la distanza euclidea quadr. Ricordiamo che la Devianza totale delle p variabili è la somma delle distanze euclidee al quadrato tra le singole osservazioni ed il vettore delle medie : T = p n s= 1i= 1 p 2 n 2 n 2 ( x x ) = ( x x ) = d ( i, ) is s i= 1s= 1 is s i= 1 2 x Dev totale (p variabili)= somma delle distanze eucl. al quadrato x s è la media della variabile s con riferimento all intero collettivo Data una partizione in g gruppi, tale devianza può essere scomposta in Devianza entro i gruppi e Devianza tra i gruppi: 24

25 Dev. Entro i gruppi (p variabili): W = g W k k = 1 in cui p nk W = ( x x ) k s= 1i = 1 is s, k 2 è la devianza riferita alle p variabili con riferimento al gruppo k e x, è la media della variabile s con riferimento al gruppo k s k Dev. Tra i gruppi (p variabili): B = p g ( x x ) s= 1k = 1 s, k s 2 n k Somma sulla p variabili delle devianze (ponderate) delle medie di gruppo rispetto alla media generale Dev tot p = Dev entro p + Dev tra p T = W + B 25

26 Nel passare da k+1 a k gruppi (aggregazione): Dev entro aumenta Dev tra diminuisce per k=g (primo passo) Dev entro=0 per k=1 (ultimo passo) Dev entro = Dev tot e (Dev tra=0) Ad ogni passo della procedura di Ward si aggregano tra loro quei gruppi per cui vi è il minor incremento della devianza entro i gruppi SCELTA DEL NUMERO DEI GRUPPI E CRITERI DI VALUTAZIONE DELLE PARTIZIONI In generale il criterio che si usa per la scelta del numero dei gruppi è il seguente: si considerino due passi consecutivi nella procedura di aggregazione; se nel passare da k+1 a k gruppi si aggregano due gruppi molto diversi tra loro, allora è meglio fermarsi prima, cioè a k+1 gruppi A tale fine possiamo impiegare varie tecniche: 26

27 1) dendrogramma: taglio allo stadio in cui la distanza di fusione risulta troppo elevata Con riferimento all esempio precedente, algoritmo di Ward: Stadio Distanza di Incrementi relativi della Distanza riscalata fusione dist. di fusione 1 (5 gruppi) 1,00 2 (4 gruppi) 2,50 1,50 (da 5 a 4 gruppi) 0,5 3 6,00 1,40 (da 4 a 3 gruppi) 1,6 4 24,75 3,13 (da 3 a 2 gruppi) 7,5 5 80,33 2,25 (da 2 a 1 gruppo) 25 Rescaled Distance Cluster Combine C A S E Label Num òûòòòòòòòòòòòòòòòø 5 ò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 2 òûòòòòòòòòòòòòòòò ó 6 ò ó 1 òòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòòòòòòòòòòò 3 òòò nel passaggio da 3 a 2 gruppi sono stati aggregati gruppi troppo dissimili tra loro 3 gruppi 27

28 2) scree plot: in ordinata il numero dei gruppi ed in ascissa la distanza di fusione num. di gruppi Lo scree plot suggerisce che nel passaggio da 3 a 2 gruppi sono stati aggregati gruppi troppo dissimili tra loro 3 gruppi distanza di fusione 3) Incrementi relativi della distanza di fusione 6 2,5 Ad es. per lo stadio 3 (da 4 a 3 gruppi) corrisponde a: = 1, 4 2,5 (vedi tab. precedente) L incremento più elevato si ha nel passare da 3 a 2 gruppi 3 gruppi ( d d ) d δ = scelgo k per cui δ = max k k k +1 k + 1 k 28

29 4) Indice R 2 : R 2 = 1 W/T = B/T Misura la quota di variabilità totale nella matrice dei dati (p variabili) che può essere spiegata dalla partizione in gruppi considerata: nel passare da k+1 a k: diminuisce assume valori nell intervallo [0,1] confrontabile per partizioni differenti (valore ottimale è quello prossimo all unità) maggiore inconveniente porterebbe a privilegiare la partizione banale di n gruppi composti da una sola unità lo si utilizza considerando i decrementi nel passare da k+1 a k (se decremento elevato: k+1 gruppi) NB: tale indice viene usato soprattutto per giudicare della bontà della partizione finale individuata 29

30 METODI DI RAGGRUPPAMENTO DI TIPO NON GERARCHICO Si ottiene una sola partizione degli n elementi in g gruppi, con g prefissato Si cerca la partizione in gruppi che soddisfi un determinato criterio di ottimalità attraverso: procedura iterativa in cui si definisce una partizione iniziale e si spostano successivamente le unità da un gruppo all altro così da ottenere la partizione ottimale 2 In genere ottimale corrisponde ad un criterio di minimizzazione della Dev entro (p variabili) Vantaggi: o velocità di esecuzione o non c è più il vincolo per cui negli alg. gerarchici se due unità vengono fuse all inizio, rimangono tali fino alla fine o non necessita dell uso del dendrogramma che, per n elevato, risulta difficilmente interpretabile 2 Per ottenere la partizione ottimale bisognerebbe analizzare tutte le possibili partizioni, vedremo che ciò non è possibile essendo queste in numero enorme (n=20 e k=4: oltre 45 miliardi di possibili partizioni!). Si parla allora di ottimo locale (condizionato alla partizione iniziale scelta) 30

31 Se si ritiene che vi sia una struttura gerarchica allora alg. gerarchici, altrimenti non gerarchico Fasi di una procedura iterativa alla base degli alg. di tipo non gerarchico a) Scelta del numero g di gruppi b) Scelta della classificazione iniziale in g gruppi c) Calcolo del valore della funzione obiettivo d) Riallocazione delle unità in gruppi che garantiscono il miglioramento più elevato nella coesione interna ai gruppi e) Iterazione dei passi c) e d) fino a che non viene soddisfatta una regola di arresto Metodo delle k medie (k=g gruppi) 1. Scelta di g centri (poli, semi: c 1, c 2,, c h,, c g ) 2. Raggruppamento delle unità intorno ai k centri in modo che il gruppo delle unità associate a c h è costituita dall insieme delle unità più vicine a c h che a qualsiasi altro centro. 3. Calcolo dei centroidi dei g gruppi così ottenuti 31

32 4. Calcolo della distanza di ogni elemento da ogni centroide: se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, allora l unità è riallocata al gruppo che corrisponde al centroide più vicino 5. Ricalcolo dei centroidi 6. Iterazione dei passi 4. e 5. fino a che i centri non subiscono ulteriori modifiche rispetto alla iterazione precedente Solitamente si utilizza la distanza euclidea, che garantisce la convergenza della procedura iterativa. In tal caso: Distanza tra unità i e centroide del gruppo l, calcolato nell iterazione t è d p ( t ) ( t ) ( x,x ) = x x i s, l ( ) s= 1 is s, l 2 il criterio di ottimalità corrisponde alla minimizzazione della Dev entro (p) (di W) Una misura naturale della bontà della partizione è R 2 =B/T 32

33 Problemi: La classificazione finale può essere influenzata dalla scelta iniziale dei poli: attenzione all ordine delle unita Soluzioni instabili se: valori anomali nei dati non esiste struttura in gruppi n piccolo Soluzione: meglio scelta casuale (badando a che i centri non siano valori anomali e che siano ben distinti) oppure scegliamo come centro il baricentro di una nube di punti 33

34 Scelta del numero g di gruppi Non sempre si dispone di indicazioni a priori (non in ambito socio-economico) Esecuzione dell analisi per valori diversi di g e successiva valutazione della bontà della partizione attraverso R 2 ma il numero dei possibili valori di g non deve essere elevato, altrimenti si perde il vantaggio della velocità di esecuzione non è detto, inoltre, che si riesca ad individuare una soluzione ottima tra tutte le partizioni ottenute a) algoritmo di tipo gerarchico b) scelta di un intervallo di valori ragionevoli per g c) algoritmo di tipo non gerarchico per ognuno dei valori così individuati d) scelta della soluzione ottimale attraverso R 2 In sintesi: è necessario effettuare alcune scelte che hanno margini di soggettività rischio che non esista realmente una suddivisione in gruppi verifica della stabilità della soluzione attraverso l impiego di vari algoritmi (ad es. prima gerarchico poi non ger.) la soluzione deve essere il meno possibile sensibile a piccole variazioni nei dati, in modo tale che l eliminazione di un unità non modifichi la struttura dei gruppi 34

35 Esempio di applicazione dell algoritmo delle k-medie con G=2,3,4 Unità cortesia competenza gruppo flessibilità organizza

36 Num. gruppi = 2 Centri dei cluster iniziali Centri dei cluster finali cortesia competenza cap. di lav. in gruppo flessibilità cap. organizzative Cluster cortesia competenza cap. di lav. in gruppo flessibilità cap. organizzative Cluster Iterazione 1 2 a. Cronologia iterazioni Modifiche ai centri dei cluster 1 2 2,539 1,700,000,000 Convergenza raggiunta a causa di una modifica della distanza non effettuata o di piccole dimensioni. La distanza massima in base alla quale un qualsiasi centro è stato modificato è,000. L'iterazione corrente è 2. La distanza minima tra i centri iniziali è 9,899. a Numero di casi in ogni cluster Cluster Validi Mancanti 1 2 3,000 3,000 6,000,000 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 36

37 tabella ANOVA CLUSTER (TRA) ERRORE (ENTRO F SIG. Media dei df Media dei df quadrati quadrati Cortesia 16, , ,286,019 Competen. 8, , ,000,057 Gruppo 8, , ,900,091 Flessibilità 10, , ,400,065 Organizza 10,667 1, ,800,023 I test F devono essere utilizzati solo per motivi descrittivi poiché i cluster sono stati scelti per ottimizzare le differenze tra i casi in diversi cluster. I livelli di significatività osservati non sono perciò corretti e non possono quindi essere interpretati come test dell'ipotesi che le medie dei cluster siano uguali. CLUSTER: Var tra (g.l.=g-1=2-1=1) ERRORE: Var entro (g.l.=n-g=6-2=4) Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 37

38 Calcolo di R 2 : La colonna F si riferisce alle singole variabili e quindi: a) calcolo delle singole Dev tra ed entro (=Var x g.l) b) somma su tutte le variabili CLUSTER ERRORE CLUSTER (tra) ERRORE (entro) Media dei df Media dei df quadrati quadrati Dev (somma dei quadrati) Cortesia 16, , ,667 4,668 Competen. 8, , ,167 4,668 Gruppo 8, , ,167 6,668 Flessibilità 10, , ,667 6,668 Organizza 10,667 1, ,667 3,332 54,3 R 2 = = 0, ,3 TOT 54,335 26,004 74,3 Num. gruppi = 3 R 2 = = 0, ,3 Num. gruppi = 4 R 2 = 0,969 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 38

39 Num. gruppi = 5 R 2 =0,988 k Dev tra Decr. Di Dev tra R2 Decr. di R2 5 79,3 0, ,8 1,5 0,969 0, ,3 3,5 0,925 0, ,3 20,0 0,676 0, ,3 2 1 Nel passare da 3 a 2: incremento di Dev entro elevato mi fermo a 3 Interpretazione dei risultati e connotazione dei gruppi Ricerca delle caratteristiche di ogni gruppo individuato Analisi dei profili di gruppo Utile anche per una verifica riguardo al numero di gruppi individuato (se emergono tipologie inusuali (?) potrebbe aver senso aumentare g ) Calcolo dei centri (valor medio per ogni variabile) e confronto tra tali centri Attraverso il confronto sopra indicato è possibile individuare le variabili discriminanti (quelle che hanno maggior peso nell identificazione dei gruppi) Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 39

40 Molto importante verificare che i gruppi differiscano con riferimento a variabili diverse da quelle impiegate nella fase di identificazione dei gruppi stessi Analisi grafica dei valori medi Dopo aver standardizzato le variabili, si rappresentano i valori medi delle p variabili nei g gruppi finali e li si collega tramite una spezzata; quanto più i punti si differenziano su una variabile, tanto più questa variabile risulta discriminante nel formare i gruppi Centri dei cluster finali Cluster differenze gruppo 1 gruppo 2 gruppo 3 gr1-gr2 gr1-gr3 gr2-gr3 cortesia 8,00 3,50 5,50 4,50 2,50 2,00 competenza 7,50 4,00 6,00 3,50 1,50 2,00 gruppo 8,00 4,50 6,00 3,50 2,00 1,50 flessibilità 8,50 4,50 6,00 4,00 2,50 1,50 organizz. 7,50 4,00 6,50 3,50 1,00 2,50 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 40

41 centri gruppo 1 gruppo 2 gruppo cortesia competenza gruppo flessibilità organizzative variabili ordinata: valori medi delle 5 variabili ascissa : variabili le variabili più discriminanti, cioè quelle che maggiormente permettono di distinguere i gruppi, sono la variabile cortesia e flessibilità Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 41

42 ESEMPIO DI SEGMENTAZIONE DEL MERCATO SULLA BASE DI GIUDIZI ESPRESSI DAI CONSUMATORI SU ATTRIBUTI DEL PRODOTTO ACQUISTATO (da Hair et al., 1995) Percezione di alcuni attributi del prodotto Hatco (benefici richiesti al prodotto) misurati su una scala grafica segmento lungo 10 cm, ai cui estremi sono collocate le modalità per nulla importante e molto importante, da parte di 100 clienti. Gli intervistati hanno indicato con un tratto di penna sul segmento la posizione corrispondente alla propria opinione. La distanza tra origine e segno indica l importanza di quell attributo per un certo cliente. Fa eccezione la variabile Livello di fedeltà, valutata in base alla percentuale di acquisti del prodotto commercializzato dall azienda sul totale degli acquisti della classe cui tale prodotto appartiene (effettuati da ciascun consumatore in un certo periodo di tempo) Le valutazioni riguardano: ASSORT PREZZO FLESSI IMMAGIP SERVIX COPERTU QUALITÀ FEDELTA SODDISF Assortimento del prodotto Livello medio di prezzo Flessibilità del prezzo nelle diverse fasi congiunturali Immagine dell azienda Servizio complessivo al consumatore Copertura del mercato (capacità distributiva) Qualità percepita del prodotto Livello di fedeltà Livello di soddisfazione Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 42

43 Obiettivo Da informazioni su: o benefici cercati nel prodotto o suo livello di utilizzazione o grado di soddisfazione che ne deriva si vuole: individuare gruppi di consumatori omogenei rispetto agli attributi sopra richiamati (segmentazione) eventualmente adottare politiche e strategie di penetrazione del mercato diverse a seconda delle diverse caratteristiche di ogni gruppo Effettuiamo l AG sulle prime 7 variabili Verifica della presenza di outliers L uso di tale scala in luogo di una serie di modalità di risposta (molto, poco, ecc.) consente l uso dell AG su Distanza (ad es.: Euclidea) Non è necessario standardizzare poiché le variabili sono espresse nella stessa unità di misura Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 43

44 Verifichiamo la presenza di correlazione tra le variabili (che condurrebbe all utilizzo della distanza di Mahalanobis): assortimento prodotto prezzo flessibilità del prezzo immagine del produttore servizio complessivo copertura del mercato qualità prodotto Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N **. La correlazione è significativa al livello 0,01 (2-code). *. La correlazione è significativa al livello 0,05 (2-code). Correlazioni assortimento flessibilità immagine del servizio copertura qualità prodotto prezzo del prezzo produttore complessivo del mercato prodotto 1,000 -,349**,509**,050,612**,077 -,483**,,000,000,618,000,446, ,349** 1,000 -,487**,272**,513**,186,470**,000,,000,006,000,064, ,509** -,487** 1,000 -,116,067 -,034 -,448**,000,000,,250,510,735, ,050,272** -,116 1,000,299**,788**,200*,618,006,250,,003,000, ,612**,513**,067,299** 1,000,241* -,055,000,000,510,003,,016, ,077,186 -,034,788**,241* 1,000,177,446,064,735,000,016,, ,483**,470** -,448**,200* -,055,177 1,000,000,000,000,046,586,078, Non ci sono correlazioni così elevate da evidenziare problemi di collinearità Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 44

45 Adottiamo una strategia a due fasi: algoritmo di tipo gerarchico aggregativo per la scelta del numero dei gruppi (metodo di Ward, si evita l effetto catena, è quello più informativo ) algoritmo di tipo non gerarchico SCELTA DEL NUMERO DEI GRUPPI Il range di numero di cluster accettabile nel problema in esame è circa da 1 a 10. Esaminiamo i risultati riferiti a tale range. Programma di agglomerazione Cluster accorpati Coeff. 3 Stadio di formazione del cluster 4 Stadio Cluster 1 Cluster 2 Cluster 1 Cluster 2.. Stadio successivo , , , , , , , , , , Coeff. = Distanza (euclidea quadratica) tra i due gruppi che si uniscono 4 Fase in cui il gruppo appare per la prima volta. Ad es. lo 0 è utilizzato per indicare che il cluster è ancora di un solo elemento. Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 45

46 Dalla tabella precedente calcoliamo gli incrementi relativi della distanza di fusione: stadio distanza di fusione incrementi rel. % della dist di fusione da k+1 a k , ,4 8, ,0 8, ,1 9, ,9 9, ,1 9,1 * ,3 12, ,0 17,2 Da 4 a ,0 17, ,8 61,8 Da 2 a 1 * = [(398,1-364,9)/ 364,9] = 9,1 Gli incrementi relativi più elevati si hanno nel passare da 4 a 3 da 2 ad 1 Quindi le soluzioni interessanti potrebbero essere 2 oppure 4 gruppi (meglio 2) Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 46

47 Scree plot num. di gruppi ,0 400,0 600,0 800,0 1000,0 1200,0 distanza tra i gruppi Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 47

48 Dendrogramma Rescaled Distance Cluster Combine C A S E Label Num Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 48

49 Decidiamo quindi di analizzare entrambe le configurazioni. Sceglieremo tra le due sulla base dei risultati derivanti dall algoritmo di tipo non gerarchico, e con riferimento a: 1. interpretazione delle caratteristiche del cluster 2. validazione della soluzione sulla base di variabili esterne numero di osservazioni per cluster Ward Method Ward Method Validi Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 18 18,0 18,0 18, ,0 18,0 36, ,0 12,0 48, ,0 21,0 69, ,0 20,0 89, ,0 11,0 100, ,0 100,0 Validi Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 29 29,0 29,0 29, ,0 38,0 67, ,0 12,0 79, ,0 21,0 100, ,0 100,0 Validi Totale Ward Method Percentuale Percentuale Frequenza Percentuale valida cumulata 29 29,0 29,0 29, ,0 18,0 47, ,0 12,0 59, ,0 21,0 80, ,0 20,0 100, ,0 100,0 Validi Totale Ward Method Percentuale Percentuale Frequenza Percentuale valida cumulata 29 29,0 29,0 29, ,0 50,0 79, ,0 21,0 100, ,0 100,0 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 49

50 Validi 1 2 Totale Ward Method Percentuale Percentuale Frequenza Percentuale valida cumulata 50 50,0 50,0 50, ,0 50,0 100, ,0 100,0 Medie di gruppo per ogni variabile Soluzioni: g=2 g=4 Ward Method 4 gruppi Ward Method 2 gruppi 1,00 2,00 3,00 4,00 1,00 2,00 Media Media assortimento 4,2 2,2 3,7 4,8 4,5 2,6 prezzo 1,6 2,8 4,2 1,5 1,6 3,2 flessibilità del 8,6 7,2 6,0 9,3 8,9 6,9 prezzo immagine 4,4 5,4 6,2 5,7 4,9 5,6 servizio 2,9 2,5 3,9 3,1 3,0 2,8 complessivo copertura 2,0 2,7 3,2 3,2 2,5 2,8 qualità prodotto 5,1 8,0 8,3 7,0 5,9 8,0 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 50

51 Effettuiamo, a questo punto, una cluster NON gerarchica con 2 e 4 gruppi. ANOVA 2 gruppi Cluster Errore F Sig. Media dei df Media dei df quadrati quadrati assortimento 81,563 1, ,717,000 prezzo 66,457 1, ,753,000 flessibilità 109,637 1, ,175,000 immagine 11, , ,596,003 servizio compl.,188 1,568 98,331,566 copertura 2,123 1, ,670,058 qualità prodotto 123, , ,404,000 Solo rispetto alla variabile servizio complessivo i due gruppi non si differenziano in modo significativo Numero di casi in ogni cluster Cluster 1 52, ,000 Validi 100,000 La soluzione è molto simile a quella fornita dall algoritmo gerarchico Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 51

52 Calcoliamo R 2 : CLUSTER ERRORE CLUSTER (tra) ERRORE (entro) Media dei quadrati df Media dei quadrati df Dev (somma dei quadrati) Assortim. 81, , ,563 91,14 prezzo 66, , ,457 75,068 flessibilità 109, , ,637 80,654 immagine 11, , , ,444 servizio 0, , ,188 55,664 copertura 2, , ,123 56,742 qualità 123, , , ,44 TOT 394,6 600,2 DEV TRA DEV ENTRO dev tot 394,6 600,2 994,794 R 2 =0,4 valore non elevato Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 52

53 Medie di cluster per variabile Cluster non ger 1,00 2,00 Media Media assortimento prodotto 4,4 2,6 prezzo 1,6 3,2 flessibilità del prezzo 8,9 6,8 immagine del produttore 4,9 5,6 servizio complessivo 3,0 2,9 copertura del mercato 2,5 2,8 qualità prodotto 5,9 8,1 molto simili a quelle ottenute mediante l algoritmo gerarchico (g=2): stabilità della soluzione Interpretazione e validazione della classificazione attraverso var. esterne Livello di fedeltà Livello di soddisfazione Cluster non ger F Pr>F 1,00 2,00 Media Media fedeltà 49,88 42,32 14,79 0,00 soddisfazione 5,16 4,38 23,83 0,00 i gruppi si differenziano anche rispetto a variabili esterne ed i risultati sono coerenti Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 53

54 Dalle medie di gruppo con riferimento alle 9 variabili in esame emerge che: Cluster non ger 1,00 2,00 Media Media assortimento prodotto 4,4 2,6 > prezzo 1,6 3,2 < flessibilità del prezzo 8,9 6,8 > immagine del produttore 4,9 5,6 < servizio complessivo 3,0 2,9 copertura del mercato 2,5 2,8 < qualità prodotto 5,9 8,1 < fedeltà 49,88 42,32 > soddisfazione 5,16 4,38 > Il gruppo 1 attribuisce un importanza maggiore a: grado di assortimento flessibilità Il gruppo 2 attribuisce un importanza maggiore a: livello medio del prezzo immagine dell impresa copertura del mercato qualità percepita Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 54

55 Inoltre il gruppo 1 manifesta un più elevato livello di fedeltà e di soddisfazione: l azienda deve compiere ulteriori sforzi per migliorare la sua performance nei confronti del gruppo 2 rispetto alle variabili più importanti per tale gruppo Soluzione in 4 gruppi ANOVA CLUSTER ERRORE CLUSTER ERRORE (tra) (entro) Media dei quadrati df Media dei quadrati df Dev (somma dei quadrati) Assortim. 37,11 3 0, ,33 61,36 prezzo 28,53 3 0, ,59 55,94 flessibilità 39,27 3 0, ,80 72,51 immagine 15,53 3 0, ,58 80,15 servizio 7,49 3 0, ,46 33,41 copertura 8,24 3 0, ,73 34,10 qualità 53,22 3 0, ,66 89,12 TOT 568,1 426,6 I due gruppi non si differenziano in modo significativo rispetto a tutte le variabili Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 55

56 Numero di casi in ogni cluster Cluster Validi 100 soluzione simile a quella fornita dall algoritmo gerarchico Calcoliamo R 2 sulla base dei dati forniti nella tabella Anova: DEV TRA DEV ENTRO dev tot 568,1 426,6 994,794 R 2 =0,57 valore accettabile Medie di cluster per variabile 1,00 2,00 3,00 4,00 Tot Media Media Media Media assortimento prodotto 4,1 2,0 3,4 4,9 3,5 prezzo 1,6 2,7 4,0 1,5 2,4 flessibilità del prezzo 8,6 7,0 6,6 9,4 7,9 immagine del produttore 4,4 5,2 6,2 5,8 5,2 servizio complessivo 2,8 2,3 3,7 3,2 2,9 copertura del mercato 2,1 2,6 3,2 3,3 2,7 qualità prodotto 5,3 8,2 8,0 7,0 7 livello di fedeltà livello di soddisfazione 4,8 4,0 4,9 5,6 4,8 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Medie molto simili a quelle ottenute mediante l algoritmo gerarchico (g=4): stabilità della soluzione 56

57 Variabili esterne : Cluster non ger F Pr>F Media fedeltà 46,33 41,23 46,77 54,21 11,3 0,00 soddisfazione 4,84 4,13 5,04 5,64 22,2 0,00 i gruppi si differenziano anche rispetto a tali variabili Dalle medie di gruppo con riferimento alle 9 variabili in esame emerge che: Clu1 e clu4 sono simili con riferimento a assortimento media più elevata: clu4 prezzo flessibilità media più elevata: clu4 e si differenziano da clu2 e clu3, ma ci sono alcune dimensioni rispetto alle quali i gruppi sono simili Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 57

58 In generale clu4 ha una percezione migliore di Hatco rispetto a clu1 Inoltre ha un livello di fedeltà maggiore ed è più soddisfatto Clu1 ha un livello medio di fedeltà e di soddisfazione Assegna un punteggio molto più basso della media ad Hatco per: copertura, immagine, qualità Clu2 è il gruppo meno soddisfatto e meno fedele: Ha una cattiva percezione con riferimento a assortimento e servizio Tuttavia assegna punteggio elevato ad Hatco per prezzo e qualità..per aumentare la quantità acquistata da questo gruppo (fedeltà) si potrebbe agire ad esempio migliorando l assortimento.. Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 58