Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:"

Transcript

1 LA SEGMENTAZIONE DEL MERCATO Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di: 1) valutare le caratteristiche, i bisogni e i comportamenti probabili degli acquirenti potenziali 2) identificare domande di tipo diverso da parte dei consumatori, allo scopo di adattare in modo conforme i prodotti e le attività relative di marketing agli specifici bisogni che queste domande esprimono 3) delimitare il mercato in cui intende operare suddivisione, cioè segmentazione, del mercato in gruppi omogenei al loro interno e distinti tra loro di consumatori che si presume richiedano specifici prodotti e verso i quali si dovranno indirizzare specifiche politiche di vendita al fine di adeguare i prodotti e le strategie di marketing alle differenze ravvisabili nelle esigenze manifestate dai consumatori 1

2 Adottare una strategia di segmentazione significa, quindi, riconoscere esplicitamente l esistenza di elementi di eterogeneità entro un mercato. Le informazioni a partire dalle quali trova applicazione una strategia di segmentazione riguardano: aspetti demografici, economici, sociali e psicografici dei consumatori; caratteristiche legate alle situazioni di consumo (tipologie di acquisto e di utilizzazione del prodotto, benefici attesi, risposte a variabili presenti nell offerta di marketing dell azienda, ecc.). Le variabili a disposizione possono assolvere al ruolo di: basi, se generano direttamente il processo di classificazione in gruppi delle unità statistiche in osservazione descrittori, se entrano in gioco solo nella fase di interpretazione dei profili dei segmenti Tipologie di segmentazione a priori a posteriori 2

3 Modelli di segmentazione a priori Suddivisione del collettivo in esame a seconda delle modalità presentate da una o più basi, specificate a priori L attività di segmentazione si riduce ad una semplice classificazione delle unità statistiche in classi preventivamente definite Tecniche statistiche di partizione ricorsiva (alberi di classificazione), come l Automatic Interaction Detection (AID), la Chi-squared Automatic ID (CHAID), e Classification And Regression Trees (CART) per: individuare i descrittori dei profili dei segmenti ottenere una descrizione sintetica del profilo stesso Modelli di segmentazione a posteriori Si basano sull applicazione di algoritmi di raggruppamento (clustering) Si differenziano dai precedenti per il modo in cui viene selezionata la base di segmentazione: manca una scelta a priori non sono prefissati, in generale, né il numero, né le tipologie dei gruppi da formare 3

4 I segmenti sono determinati attraverso la classificazione delle unità statistiche effettuata sulla base del grado di dissomiglianza rispetto ad un insieme di variabili (comportamenti, bisogni, attitudini dei consumatori, lo stile di vita, ecc.. ) E' importante tenere in considerazione la stabilità nel tempo delle tipologie individuate: l individuo attribuito ad un certo segmento, continuerà a fare parte dello stesso segmento nel corso del tempo e/o in situazioni ambientali diverse? L analisi di segmentazione prevede nell'ordine: 1. la determinazione dei segmenti 2. l identificazione del loro profilo sulla base di specifiche caratteristiche degli intervistati Per comprendere appieno la struttura dei segmenti selezionati è necessario valutare il loro grado di omogeneità e identificarne, in particolare, l ampiezza relativa e la composizione. Nella fase 2 si esamina l esistenza di differenze significative in senso statistico fra i valori medi o le frequenze relative assunti nei segmenti dalle variabili che ne descrivono i profili. 4

5 ANALISI DEI GRUPPI - AG (cluster analysis) Consideriamo un certo numero (n) di unità su cui abbiamo osservato p fenomeni (variabili). Obiettivo: Individuare gruppi di osservazioni all interno dei quali le osservazioni siano simili (omogenei al loro interno) ed eterogenei tra di loro (gruppi distinti). Tale omogeneità/disomogeneità si riferisce all insieme delle variabili osservate Attenzione: non sappiamo a priori se tali gruppi esistono effettivamente Attraverso l AG, una realtà molto variegata viene semplificata e ricondotta ad alcune tipologie più leggibili: CLASSIFICAZIONE 5

6 Ad esempio X2 3,5 3 2,5 2 1,5 1 0, X1 X X1 Gruppi ben definiti Gruppi non ben definiti correlazione bassa correlazione elevata L'obiettivo è quello di realizzare un raggruppamento rispetto a p fenomeni abbiamo bisogno di un algoritmo non banale (per p>3 la rappresentazione grafica non ci aiuta) Osservazione di p variabili X, X 2,, X s,, X 1 p con riferimento ad n individui (i=1,,n): 6

7 MATRICE dei dati X, dim. n x p Matrice di dissomiglianza tra le unità (distanze o dissimilarità). dim. n x n x xi xn x x 1s x is ns x1 p xip xnp D = d11 = d 21 di1 dn1 0 d 12 d 1 j d ij d 1n 0 Il raggruppamento delle unità avviene sulla base della matrice D Vedremo che la scelta del tipo di d ci condurrà all impiego di diversi algoritmi di raggruppamento 7

8 Impieghi dell AG in ambito economico-aziendale Identificazione di gruppi di: consumatori (o utenti di un certo servizio pubblico) sulla base di: comportamento al consumo opinioni sul prodotto importanza assegnata a varie caratteristiche di un prodotto (segmentazione del mercato) strutture di servizi secondo varie caratteristiche che ne definiscono l efficienza marche di un certo prodotto secondo varie caratteristiche aziende secondo caratteristiche legate ai rapporti con l estero FASI dell AG Scelta delle variabili ed eventuale trasformazione delle stesse Scelta della misura di dissomiglianza Scelta dell algoritmo di raggruppamento Valutazione della partizione ottenuta e scelta del numero ottimale di gruppi Interpretazione dei risultati ottenuti (connotazione dei gruppi) 8

9 Scelta delle variabili La metodologia statistica è di scarso aiuto, è necessaria una buona conoscenza del fenomeno (l impiego di variabili con scarso potere discriminatorio può rendere confusa la classificazione) Se numero elevato di variabili: AG sui punteggi delle prime k CP Trattamento preliminare delle variabili Generalmente variabili espresse nella stessa scala di misura Se variabili quant. espresse secondo diverse unità di misura/diverso ordine di grandezza: standardizzazione Scelta della misura di distanza/dissimilarità Variabili quantitative: indice di distanza Variabili qualitative: indice di dissimilarità e quindi ci si basa sulle caratteristiche delle singole metriche (ad es. proprietà) la più usata è la distanza euclidea (var. quant.) se var. correlate: dist. di Mahalanobis (var. quant.) può essere opportuno verificare la stabilità dei risultati con vari tipi di distanza/diss. 9

10 Scelta dell algoritmo di raggruppamento, di tipo Gerarchico Non gerarchico I metodi gerarchici consentono di ottenere un insieme di gruppi ordinabili secondo livelli crescenti, con un numero di gruppi da n ad 1: al livello iniziale ogni unità costituisce un gruppo negli stadi intermedi si aggregano gli elementi in gruppi via via sempre più numerosi al livello finale tutte le unità sono riunite in un unico gruppo la scelta del numero dei gruppi avviene contestualmente. (metodi aggregativi o bottom-up, ve ne sono anche di scissori) I metodi non gerarchici forniscono un unica partizione delle n unità in g gruppi, e g deve essere specificato a priori 10

11 Scelta del numero ottimale di gruppi Negli algoritmi di tipo gerarchico avviene, sostanzialmente, sulla base principio per cui non bisogna accorpare gruppi troppo diversi tra loro. Valutazione della partizione ottenuta L esistenza dei gruppi non è scontata, potremmo aver ottenuto una partizione che non esiste nella realtà. La classificazione ottenuta fornisce gruppi: i) composti ognuno da unità simili, e ii) distinti tra loro? Interpretazione dei risultati ottenuti Quali sono le caratteristiche di ognuno dei gruppi ottenuti?.differenze. Come si intuisce, è necessario effettuare alcune scelte che introducono elementi di soggettività: è importante la stabilità della soluzione 11

12 METODI DI RAGGRUPPAMENTO DI TIPO GERARCHICO (aggregativo) Genera una famiglia di partizioni delle n unità, a partire da quella banale di n gruppi a quella in cui tutte le unità sono riunite in 1 gruppo Si determinano diversi livelli di partizioni (che corrispondono ad un diverso numero di gruppi) ed i gruppi che si ottengono ad ogni livello comprendono i gruppi ottenuti ai livelli inferiori quando due o più unità sono state unite ad un certo livello della procedura, esse non saranno più separate A questi diversi livelli corrispondono diversi livelli di omogeneità: una partizione in g gruppi sarà caratterizzata da una maggiore omogeneità interna rispetto alla partizione in g-1 gruppi N.B. : Abbiamo parlato di somiglianza/dissomiglianza (o di omogeneità/eterogeneità) TRA ed ENTRO Nel seguito sarà usato il termine distanza, più familiare (anche se, a rigore, dovremmo usare il termine dissomiglianza che è più generale) e si preciserà di volta in volta se l algoritmo può essere usato sia per variabili quantitative (distanza Euclidea, di Mahalanobis, ecc.), sia per variabili qual. (indici di similarità) o solo per variabili quant. 12

13 Fasi per la realizzazione di una procedura gerarchica di raggruppamento a) Si calcola la matrice delle distanze D (simmetrica e n x n) b) Si individuano in D le due unità più simili (con minore distanza) e si riuniscono in un unico gruppo n-1 gruppi c) Si calcola una nuova matrice di distanza tra gruppi (n-1 x n-1) D 1 d) Si individuano in D 1 i due gruppi con minore distanza e si riuniscono in un unico gruppo n-2 gruppi Se vi sono q coppie alla stessa distanza si fondono tutte le coppie ed i gruppi saranno n-(2q-1) e) Si ripetono le fasi c) e d) fino ad arrivare ad un unico gruppo Fase 1 n gruppi Fase 2 n-1 gruppi. Fase k n-k+1 gruppi. Fase n 1 gruppo Vi sono vari metodi gerarchici a seconda del criterio utilizzato per calcolare la distanza tra i gruppi (non ancora definita!) La procedura descritta è valida anche per variabili qualitative: si parlerà, in tal caso, di maggiore similarità in luogo di maggiore distanza 13

14 Dendrogramma Procedura sopra descritta rappresentata graficamente mediante un diagramma ad albero In ascissa sono riportate le distanze tra i gruppi che si fondono (a volte riscalate, ponendo uguale a 25 il livello di distanza al quale tutte le unità formano un unico gruppo) Rescaled Distance Cluster Combine Num C A S I 4 òûòòòòòòòòòòòòòòòòòø 5 ò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 2 òûòòòòòòòòòòòòòòòòò ó 6 ò ó 1 òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 3 òòòòò Andando da sx a dx, via via che il numero dei gruppi diminuisce, aumenta la distanza tra i gruppi che si fondono (e aumenterà la disomogeneità interna ai gruppi) il dendrogramma viene impiegato per scegliere il num. dei gruppi 14

15 Definizione della distanza tra due gruppi metodi di raggruppamento del legame singolo del legame completo del legame medio del centroide di Ward Consideriamo due gruppi C e G rispettivamente di numerosità n1 ed n2. Metodo del legame singolo (del vicino più vicino) La distanza tra i due gruppi C e G è definita come la più piccola (il minimo) tra tutte le n 1 n 2 distanze che si possono calcolare tra ciascuna unità i di C e ciascuna unità j di G: d(c,g)=min(dij) i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita 15

16 Esempio: Consideriamo sei dipendenti di un azienda (ad esempio in forze in una certa divisione) che sono stati valutati per le loro prestazioni lavorative in termini di: cortesia competenza capacità di lavorare in gruppo p=5 flessibilità n=6 capacità organizzative unità cortesia competenza gruppo flessibilità organizza

17 Statistiche descrittive cortesia competenza cap. a lav. in grupp flessibilità cap. organizzative Validi (listwise) Deviazione N Minimo Massimo Media std ,67 2, ,83 1, ,17 1, ,33 1, ,00 1,67 6 Var. quantitative, stessa unità di misura, con medie e varianze simili: operiamo sulle variabili originarie e impieghiamo la distanza euclidea Passi della procedura di raggruppamento impiegando il metodo del legame singolo: Passo 1: matrice delle distanze tra unità Unità ,43 2,65 5,92 5,20 9,90 2 9,43 7,35 3,74 4,69 1,73 3 2,65 7,35 4,00 3,16 7,81 4 5,92 3,74 4,00 1,41 4,12 5 5,20 4,69 3,16 1,41 5,20 6 9,90 1,73 7,81 4,12 5,20 I due individui più vicini sono il 4 e il 5: la prima partizione in 5 gruppi è 1, 2, 3, (4,5), 6 17

18 Passo 2: Calcolo delle distanze tra il gruppo (4,5) e le restanti unità: d [1,4]= 5,92 scelgo quella min tra le due d [1,(4,5)]= 5,20 d [1,5]= 5,20 d [2,4]= 3,74 d [2,(4,5)]= 3,74 d [2,5]= 4,69 d [3,4]= 4 d [3,(4,5)]= 3,16 d [3,5]= 3,16 Nuova matrice delle distanze: Unità , ,43 2,65 5,20 9,90 2 9,43 7,35 3,74 1,73 3 2,65 7,35 3,16 7,81 4,5 5,20 3,74 3,16 4,12 6 9,90 1,73 7,81 4,12 I gruppi più vicini sono il gruppo costituito dall unità 6 e quello costituito dall unità 2 seconda partizione in 4 gruppi è 1, (2,6), 3, (4,5) 18

19 Passo 3: Si calcolano le distanze tra (2,6) e 1, 2, 3 come sopra Calcolo delle distanze tra (2,6) e (4,5): d [2,4]= 3,74 d [(2,6),(4,5)]= 3,74 d [2,5]= 4,69 d [6,4]= 4,12 d [6,5]= 5,20 Nuova matrice: Unità 1 2,6 3 4,5 1 9,43 2,65 5,20 2,6 9,43 7,35 3,74 3 2,65 7,35 3,16 4,5 5,20 3,74 3,16 I gruppi più vicini sono il gruppo costituito dall unità 1 e quello costituito dall unità 3 terza partizione in 3 gruppi è (1,3), (2,6), (4,5) 19

20 Passo 4:.2 gruppi (1,3,4,5), (2,6) stadio Distanza di fusione Distanza di fusione riscalata 1 1 (5 gruppi) 1, (4 gruppi) 1,73 3, ,65 13, ,16 18, ,74 25, Dendrogramma metodo del legame singolo C A S E Label Num òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 5 ò ùòòòòòòòòòòòòòòòø 1 òòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòò ó 3 òòòòòòòòòòòòòòòòòòòòò ó 2 òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 6 òòòòò 1 Ponendo min=minimo della dist. di fusione (1,41) e max= massimo della dist. di fusione (3,74), le distanze riscalate dr s, si ottengono dalle distanze di fusione originarie df s, in cui s indica lo stadio nel seguente modo: dr s =[25*(df s -min)]/(max-min) con dr 1= df 1 20

21 Metodo del legame completo (o del vicino più lontano) La distanza tra i due gruppi C e G è definita come il massimo tra tutte le n 1 n 2 distanze che si possono calcolare tra ciascuna unità i di C e ciascuna unità j di G: d(c,g)=max(dij) i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita Metodo del legame medio La distanza tra i due gruppi C e G è definita come la media aritmetica delle n 1 n 2 distanze tra ciascuna unità i di C e ciascuna unità j di G: d(c,g)= 1 n n d ij n1n 2 i= 1 j= 2 i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita 21

22 Alcune considerazioni.. Metodo del legame singolo: individua gruppi non necessariamente sferici (metodo non legato alla forma del cluster) che possono risultare scarsamente omogenei al loro interno (effetto catena) interessante per individuare cluster di forma non sferica Metodo del legame completo: individua gruppi sferici e compatti Metodo del legame medio: buon compromesso tra i precedenti Si noti che i tre metodi presentati possono essere usati sia con distanze sia con indici di dissimilarità - variabili qualitative. 22

23 I metodi seguenti richiedono variabili quantitative. Quindi, quando nel seguito parliamo di distanza intendiamo calcolabile su variabili quantitative, ad es. d. euclidea, di Minkowski, di Mahalanobis, ecc.) Metodo del centroide La distanza tra i due gruppi C e G è definita come la distanza tra i rispettivi centroidi d(c,g)=d( x C, x G ) i C, j G Si uniscono i due gruppi che presentano la più piccola distanza così definita. Problemi legati al fatto che la distanza di fusione ad un certo stadio (k gruppi) può essere inferiore a quella rilevata in una fusione successiva (k-1 gruppi) e questo rende difficile la scelta del numero dei gruppi effettuata attraverso il dendrogramma e l interpretazione dei risultati 23

24 Metodo di Ward (forse il più utilizzato), impiegato con la distanza euclidea quadr. Avvertenza: tale metodo può essere impiegato con variabili quantitative e con qualsiasi distanza calcolabile per tale tipo di variabili. Per semplicità, sarà, tuttavia, presentato impiegando la distanza euclidea quadr. Ricordiamo che la Devianza totale delle p variabili è la somma delle distanze euclidee al quadrato tra le singole osservazioni ed il vettore delle medie : T = p n s= 1i= 1 p 2 n 2 n 2 ( x x ) = ( x x ) = d ( i, ) is s i= 1s= 1 is s i= 1 2 x Dev totale (p variabili)= somma delle distanze eucl. al quadrato x s è la media della variabile s con riferimento all intero collettivo Data una partizione in g gruppi, tale devianza può essere scomposta in Devianza entro i gruppi e Devianza tra i gruppi: 24

25 Dev. Entro i gruppi (p variabili): W = g W k k = 1 in cui p nk W = ( x x ) k s= 1i = 1 is s, k 2 è la devianza riferita alle p variabili con riferimento al gruppo k e x, è la media della variabile s con riferimento al gruppo k s k Dev. Tra i gruppi (p variabili): B = p g ( x x ) s= 1k = 1 s, k s 2 n k Somma sulla p variabili delle devianze (ponderate) delle medie di gruppo rispetto alla media generale Dev tot p = Dev entro p + Dev tra p T = W + B 25

26 Nel passare da k+1 a k gruppi (aggregazione): Dev entro aumenta Dev tra diminuisce per k=g (primo passo) Dev entro=0 per k=1 (ultimo passo) Dev entro = Dev tot e (Dev tra=0) Ad ogni passo della procedura di Ward si aggregano tra loro quei gruppi per cui vi è il minor incremento della devianza entro i gruppi SCELTA DEL NUMERO DEI GRUPPI E CRITERI DI VALUTAZIONE DELLE PARTIZIONI In generale il criterio che si usa per la scelta del numero dei gruppi è il seguente: si considerino due passi consecutivi nella procedura di aggregazione; se nel passare da k+1 a k gruppi si aggregano due gruppi molto diversi tra loro, allora è meglio fermarsi prima, cioè a k+1 gruppi A tale fine possiamo impiegare varie tecniche: 26

27 1) dendrogramma: taglio allo stadio in cui la distanza di fusione risulta troppo elevata Con riferimento all esempio precedente, algoritmo di Ward: Stadio Distanza di Incrementi relativi della Distanza riscalata fusione dist. di fusione 1 (5 gruppi) 1,00 2 (4 gruppi) 2,50 1,50 (da 5 a 4 gruppi) 0,5 3 6,00 1,40 (da 4 a 3 gruppi) 1,6 4 24,75 3,13 (da 3 a 2 gruppi) 7,5 5 80,33 2,25 (da 2 a 1 gruppo) 25 Rescaled Distance Cluster Combine C A S E Label Num òûòòòòòòòòòòòòòòòø 5 ò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 2 òûòòòòòòòòòòòòòòò ó 6 ò ó 1 òòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòòòòòòòòòòò 3 òòò nel passaggio da 3 a 2 gruppi sono stati aggregati gruppi troppo dissimili tra loro 3 gruppi 27

28 2) scree plot: in ordinata il numero dei gruppi ed in ascissa la distanza di fusione num. di gruppi Lo scree plot suggerisce che nel passaggio da 3 a 2 gruppi sono stati aggregati gruppi troppo dissimili tra loro 3 gruppi distanza di fusione 3) Incrementi relativi della distanza di fusione 6 2,5 Ad es. per lo stadio 3 (da 4 a 3 gruppi) corrisponde a: = 1, 4 2,5 (vedi tab. precedente) L incremento più elevato si ha nel passare da 3 a 2 gruppi 3 gruppi ( d d ) d δ = scelgo k per cui δ = max k k k +1 k + 1 k 28

29 4) Indice R 2 : R 2 = 1 W/T = B/T Misura la quota di variabilità totale nella matrice dei dati (p variabili) che può essere spiegata dalla partizione in gruppi considerata: nel passare da k+1 a k: diminuisce assume valori nell intervallo [0,1] confrontabile per partizioni differenti (valore ottimale è quello prossimo all unità) maggiore inconveniente porterebbe a privilegiare la partizione banale di n gruppi composti da una sola unità lo si utilizza considerando i decrementi nel passare da k+1 a k (se decremento elevato: k+1 gruppi) NB: tale indice viene usato soprattutto per giudicare della bontà della partizione finale individuata 29

30 METODI DI RAGGRUPPAMENTO DI TIPO NON GERARCHICO Si ottiene una sola partizione degli n elementi in g gruppi, con g prefissato Si cerca la partizione in gruppi che soddisfi un determinato criterio di ottimalità attraverso: procedura iterativa in cui si definisce una partizione iniziale e si spostano successivamente le unità da un gruppo all altro così da ottenere la partizione ottimale 2 In genere ottimale corrisponde ad un criterio di minimizzazione della Dev entro (p variabili) Vantaggi: o velocità di esecuzione o non c è più il vincolo per cui negli alg. gerarchici se due unità vengono fuse all inizio, rimangono tali fino alla fine o non necessita dell uso del dendrogramma che, per n elevato, risulta difficilmente interpretabile 2 Per ottenere la partizione ottimale bisognerebbe analizzare tutte le possibili partizioni, vedremo che ciò non è possibile essendo queste in numero enorme (n=20 e k=4: oltre 45 miliardi di possibili partizioni!). Si parla allora di ottimo locale (condizionato alla partizione iniziale scelta) 30

31 Se si ritiene che vi sia una struttura gerarchica allora alg. gerarchici, altrimenti non gerarchico Fasi di una procedura iterativa alla base degli alg. di tipo non gerarchico a) Scelta del numero g di gruppi b) Scelta della classificazione iniziale in g gruppi c) Calcolo del valore della funzione obiettivo d) Riallocazione delle unità in gruppi che garantiscono il miglioramento più elevato nella coesione interna ai gruppi e) Iterazione dei passi c) e d) fino a che non viene soddisfatta una regola di arresto Metodo delle k medie (k=g gruppi) 1. Scelta di g centri (poli, semi: c 1, c 2,, c h,, c g ) 2. Raggruppamento delle unità intorno ai k centri in modo che il gruppo delle unità associate a c h è costituita dall insieme delle unità più vicine a c h che a qualsiasi altro centro. 3. Calcolo dei centroidi dei g gruppi così ottenuti 31

32 4. Calcolo della distanza di ogni elemento da ogni centroide: se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, allora l unità è riallocata al gruppo che corrisponde al centroide più vicino 5. Ricalcolo dei centroidi 6. Iterazione dei passi 4. e 5. fino a che i centri non subiscono ulteriori modifiche rispetto alla iterazione precedente Solitamente si utilizza la distanza euclidea, che garantisce la convergenza della procedura iterativa. In tal caso: Distanza tra unità i e centroide del gruppo l, calcolato nell iterazione t è d p ( t ) ( t ) ( x,x ) = x x i s, l ( ) s= 1 is s, l 2 il criterio di ottimalità corrisponde alla minimizzazione della Dev entro (p) (di W) Una misura naturale della bontà della partizione è R 2 =B/T 32

33 Problemi: La classificazione finale può essere influenzata dalla scelta iniziale dei poli: attenzione all ordine delle unita Soluzioni instabili se: valori anomali nei dati non esiste struttura in gruppi n piccolo Soluzione: meglio scelta casuale (badando a che i centri non siano valori anomali e che siano ben distinti) oppure scegliamo come centro il baricentro di una nube di punti 33

34 Scelta del numero g di gruppi Non sempre si dispone di indicazioni a priori (non in ambito socio-economico) Esecuzione dell analisi per valori diversi di g e successiva valutazione della bontà della partizione attraverso R 2 ma il numero dei possibili valori di g non deve essere elevato, altrimenti si perde il vantaggio della velocità di esecuzione non è detto, inoltre, che si riesca ad individuare una soluzione ottima tra tutte le partizioni ottenute a) algoritmo di tipo gerarchico b) scelta di un intervallo di valori ragionevoli per g c) algoritmo di tipo non gerarchico per ognuno dei valori così individuati d) scelta della soluzione ottimale attraverso R 2 In sintesi: è necessario effettuare alcune scelte che hanno margini di soggettività rischio che non esista realmente una suddivisione in gruppi verifica della stabilità della soluzione attraverso l impiego di vari algoritmi (ad es. prima gerarchico poi non ger.) la soluzione deve essere il meno possibile sensibile a piccole variazioni nei dati, in modo tale che l eliminazione di un unità non modifichi la struttura dei gruppi 34

35 Esempio di applicazione dell algoritmo delle k-medie con G=2,3,4 Unità cortesia competenza gruppo flessibilità organizza

36 Num. gruppi = 2 Centri dei cluster iniziali Centri dei cluster finali cortesia competenza cap. di lav. in gruppo flessibilità cap. organizzative Cluster cortesia competenza cap. di lav. in gruppo flessibilità cap. organizzative Cluster Iterazione 1 2 a. Cronologia iterazioni Modifiche ai centri dei cluster 1 2 2,539 1,700,000,000 Convergenza raggiunta a causa di una modifica della distanza non effettuata o di piccole dimensioni. La distanza massima in base alla quale un qualsiasi centro è stato modificato è,000. L'iterazione corrente è 2. La distanza minima tra i centri iniziali è 9,899. a Numero di casi in ogni cluster Cluster Validi Mancanti 1 2 3,000 3,000 6,000,000 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 36

37 tabella ANOVA CLUSTER (TRA) ERRORE (ENTRO F SIG. Media dei df Media dei df quadrati quadrati Cortesia 16, , ,286,019 Competen. 8, , ,000,057 Gruppo 8, , ,900,091 Flessibilità 10, , ,400,065 Organizza 10,667 1, ,800,023 I test F devono essere utilizzati solo per motivi descrittivi poiché i cluster sono stati scelti per ottimizzare le differenze tra i casi in diversi cluster. I livelli di significatività osservati non sono perciò corretti e non possono quindi essere interpretati come test dell'ipotesi che le medie dei cluster siano uguali. CLUSTER: Var tra (g.l.=g-1=2-1=1) ERRORE: Var entro (g.l.=n-g=6-2=4) Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 37

38 Calcolo di R 2 : La colonna F si riferisce alle singole variabili e quindi: a) calcolo delle singole Dev tra ed entro (=Var x g.l) b) somma su tutte le variabili CLUSTER ERRORE CLUSTER (tra) ERRORE (entro) Media dei df Media dei df quadrati quadrati Dev (somma dei quadrati) Cortesia 16, , ,667 4,668 Competen. 8, , ,167 4,668 Gruppo 8, , ,167 6,668 Flessibilità 10, , ,667 6,668 Organizza 10,667 1, ,667 3,332 54,3 R 2 = = 0, ,3 TOT 54,335 26,004 74,3 Num. gruppi = 3 R 2 = = 0, ,3 Num. gruppi = 4 R 2 = 0,969 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 38

39 Num. gruppi = 5 R 2 =0,988 k Dev tra Decr. Di Dev tra R2 Decr. di R2 5 79,3 0, ,8 1,5 0,969 0, ,3 3,5 0,925 0, ,3 20,0 0,676 0, ,3 2 1 Nel passare da 3 a 2: incremento di Dev entro elevato mi fermo a 3 Interpretazione dei risultati e connotazione dei gruppi Ricerca delle caratteristiche di ogni gruppo individuato Analisi dei profili di gruppo Utile anche per una verifica riguardo al numero di gruppi individuato (se emergono tipologie inusuali (?) potrebbe aver senso aumentare g ) Calcolo dei centri (valor medio per ogni variabile) e confronto tra tali centri Attraverso il confronto sopra indicato è possibile individuare le variabili discriminanti (quelle che hanno maggior peso nell identificazione dei gruppi) Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 39

40 Molto importante verificare che i gruppi differiscano con riferimento a variabili diverse da quelle impiegate nella fase di identificazione dei gruppi stessi Analisi grafica dei valori medi Dopo aver standardizzato le variabili, si rappresentano i valori medi delle p variabili nei g gruppi finali e li si collega tramite una spezzata; quanto più i punti si differenziano su una variabile, tanto più questa variabile risulta discriminante nel formare i gruppi Centri dei cluster finali Cluster differenze gruppo 1 gruppo 2 gruppo 3 gr1-gr2 gr1-gr3 gr2-gr3 cortesia 8,00 3,50 5,50 4,50 2,50 2,00 competenza 7,50 4,00 6,00 3,50 1,50 2,00 gruppo 8,00 4,50 6,00 3,50 2,00 1,50 flessibilità 8,50 4,50 6,00 4,00 2,50 1,50 organizz. 7,50 4,00 6,50 3,50 1,00 2,50 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 40

41 centri gruppo 1 gruppo 2 gruppo cortesia competenza gruppo flessibilità organizzative variabili ordinata: valori medi delle 5 variabili ascissa : variabili le variabili più discriminanti, cioè quelle che maggiormente permettono di distinguere i gruppi, sono la variabile cortesia e flessibilità Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 41

42 ESEMPIO DI SEGMENTAZIONE DEL MERCATO SULLA BASE DI GIUDIZI ESPRESSI DAI CONSUMATORI SU ATTRIBUTI DEL PRODOTTO ACQUISTATO (da Hair et al., 1995) Percezione di alcuni attributi del prodotto Hatco (benefici richiesti al prodotto) misurati su una scala grafica segmento lungo 10 cm, ai cui estremi sono collocate le modalità per nulla importante e molto importante, da parte di 100 clienti. Gli intervistati hanno indicato con un tratto di penna sul segmento la posizione corrispondente alla propria opinione. La distanza tra origine e segno indica l importanza di quell attributo per un certo cliente. Fa eccezione la variabile Livello di fedeltà, valutata in base alla percentuale di acquisti del prodotto commercializzato dall azienda sul totale degli acquisti della classe cui tale prodotto appartiene (effettuati da ciascun consumatore in un certo periodo di tempo) Le valutazioni riguardano: ASSORT PREZZO FLESSI IMMAGIP SERVIX COPERTU QUALITÀ FEDELTA SODDISF Assortimento del prodotto Livello medio di prezzo Flessibilità del prezzo nelle diverse fasi congiunturali Immagine dell azienda Servizio complessivo al consumatore Copertura del mercato (capacità distributiva) Qualità percepita del prodotto Livello di fedeltà Livello di soddisfazione Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 42

43 Obiettivo Da informazioni su: o benefici cercati nel prodotto o suo livello di utilizzazione o grado di soddisfazione che ne deriva si vuole: individuare gruppi di consumatori omogenei rispetto agli attributi sopra richiamati (segmentazione) eventualmente adottare politiche e strategie di penetrazione del mercato diverse a seconda delle diverse caratteristiche di ogni gruppo Effettuiamo l AG sulle prime 7 variabili Verifica della presenza di outliers L uso di tale scala in luogo di una serie di modalità di risposta (molto, poco, ecc.) consente l uso dell AG su Distanza (ad es.: Euclidea) Non è necessario standardizzare poiché le variabili sono espresse nella stessa unità di misura Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 43

44 Verifichiamo la presenza di correlazione tra le variabili (che condurrebbe all utilizzo della distanza di Mahalanobis): assortimento prodotto prezzo flessibilità del prezzo immagine del produttore servizio complessivo copertura del mercato qualità prodotto Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N Correlazione di Pearson Sig. (2-code) N **. La correlazione è significativa al livello 0,01 (2-code). *. La correlazione è significativa al livello 0,05 (2-code). Correlazioni assortimento flessibilità immagine del servizio copertura qualità prodotto prezzo del prezzo produttore complessivo del mercato prodotto 1,000 -,349**,509**,050,612**,077 -,483**,,000,000,618,000,446, ,349** 1,000 -,487**,272**,513**,186,470**,000,,000,006,000,064, ,509** -,487** 1,000 -,116,067 -,034 -,448**,000,000,,250,510,735, ,050,272** -,116 1,000,299**,788**,200*,618,006,250,,003,000, ,612**,513**,067,299** 1,000,241* -,055,000,000,510,003,,016, ,077,186 -,034,788**,241* 1,000,177,446,064,735,000,016,, ,483**,470** -,448**,200* -,055,177 1,000,000,000,000,046,586,078, Non ci sono correlazioni così elevate da evidenziare problemi di collinearità Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 44

45 Adottiamo una strategia a due fasi: algoritmo di tipo gerarchico aggregativo per la scelta del numero dei gruppi (metodo di Ward, si evita l effetto catena, è quello più informativo ) algoritmo di tipo non gerarchico SCELTA DEL NUMERO DEI GRUPPI Il range di numero di cluster accettabile nel problema in esame è circa da 1 a 10. Esaminiamo i risultati riferiti a tale range. Programma di agglomerazione Cluster accorpati Coeff. 3 Stadio di formazione del cluster 4 Stadio Cluster 1 Cluster 2 Cluster 1 Cluster 2.. Stadio successivo , , , , , , , , , , Coeff. = Distanza (euclidea quadratica) tra i due gruppi che si uniscono 4 Fase in cui il gruppo appare per la prima volta. Ad es. lo 0 è utilizzato per indicare che il cluster è ancora di un solo elemento. Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 45

46 Dalla tabella precedente calcoliamo gli incrementi relativi della distanza di fusione: stadio distanza di fusione incrementi rel. % della dist di fusione da k+1 a k , ,4 8, ,0 8, ,1 9, ,9 9, ,1 9,1 * ,3 12, ,0 17,2 Da 4 a ,0 17, ,8 61,8 Da 2 a 1 * = [(398,1-364,9)/ 364,9] = 9,1 Gli incrementi relativi più elevati si hanno nel passare da 4 a 3 da 2 ad 1 Quindi le soluzioni interessanti potrebbero essere 2 oppure 4 gruppi (meglio 2) Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 46

47 Scree plot num. di gruppi ,0 400,0 600,0 800,0 1000,0 1200,0 distanza tra i gruppi Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 47

48 Dendrogramma Rescaled Distance Cluster Combine C A S E Label Num Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 48

49 Decidiamo quindi di analizzare entrambe le configurazioni. Sceglieremo tra le due sulla base dei risultati derivanti dall algoritmo di tipo non gerarchico, e con riferimento a: 1. interpretazione delle caratteristiche del cluster 2. validazione della soluzione sulla base di variabili esterne numero di osservazioni per cluster Ward Method Ward Method Validi Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 18 18,0 18,0 18, ,0 18,0 36, ,0 12,0 48, ,0 21,0 69, ,0 20,0 89, ,0 11,0 100, ,0 100,0 Validi Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 29 29,0 29,0 29, ,0 38,0 67, ,0 12,0 79, ,0 21,0 100, ,0 100,0 Validi Totale Ward Method Percentuale Percentuale Frequenza Percentuale valida cumulata 29 29,0 29,0 29, ,0 18,0 47, ,0 12,0 59, ,0 21,0 80, ,0 20,0 100, ,0 100,0 Validi Totale Ward Method Percentuale Percentuale Frequenza Percentuale valida cumulata 29 29,0 29,0 29, ,0 50,0 79, ,0 21,0 100, ,0 100,0 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 49

50 Validi 1 2 Totale Ward Method Percentuale Percentuale Frequenza Percentuale valida cumulata 50 50,0 50,0 50, ,0 50,0 100, ,0 100,0 Medie di gruppo per ogni variabile Soluzioni: g=2 g=4 Ward Method 4 gruppi Ward Method 2 gruppi 1,00 2,00 3,00 4,00 1,00 2,00 Media Media assortimento 4,2 2,2 3,7 4,8 4,5 2,6 prezzo 1,6 2,8 4,2 1,5 1,6 3,2 flessibilità del 8,6 7,2 6,0 9,3 8,9 6,9 prezzo immagine 4,4 5,4 6,2 5,7 4,9 5,6 servizio 2,9 2,5 3,9 3,1 3,0 2,8 complessivo copertura 2,0 2,7 3,2 3,2 2,5 2,8 qualità prodotto 5,1 8,0 8,3 7,0 5,9 8,0 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 50

51 Effettuiamo, a questo punto, una cluster NON gerarchica con 2 e 4 gruppi. ANOVA 2 gruppi Cluster Errore F Sig. Media dei df Media dei df quadrati quadrati assortimento 81,563 1, ,717,000 prezzo 66,457 1, ,753,000 flessibilità 109,637 1, ,175,000 immagine 11, , ,596,003 servizio compl.,188 1,568 98,331,566 copertura 2,123 1, ,670,058 qualità prodotto 123, , ,404,000 Solo rispetto alla variabile servizio complessivo i due gruppi non si differenziano in modo significativo Numero di casi in ogni cluster Cluster 1 52, ,000 Validi 100,000 La soluzione è molto simile a quella fornita dall algoritmo gerarchico Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 51

52 Calcoliamo R 2 : CLUSTER ERRORE CLUSTER (tra) ERRORE (entro) Media dei quadrati df Media dei quadrati df Dev (somma dei quadrati) Assortim. 81, , ,563 91,14 prezzo 66, , ,457 75,068 flessibilità 109, , ,637 80,654 immagine 11, , , ,444 servizio 0, , ,188 55,664 copertura 2, , ,123 56,742 qualità 123, , , ,44 TOT 394,6 600,2 DEV TRA DEV ENTRO dev tot 394,6 600,2 994,794 R 2 =0,4 valore non elevato Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 52

53 Medie di cluster per variabile Cluster non ger 1,00 2,00 Media Media assortimento prodotto 4,4 2,6 prezzo 1,6 3,2 flessibilità del prezzo 8,9 6,8 immagine del produttore 4,9 5,6 servizio complessivo 3,0 2,9 copertura del mercato 2,5 2,8 qualità prodotto 5,9 8,1 molto simili a quelle ottenute mediante l algoritmo gerarchico (g=2): stabilità della soluzione Interpretazione e validazione della classificazione attraverso var. esterne Livello di fedeltà Livello di soddisfazione Cluster non ger F Pr>F 1,00 2,00 Media Media fedeltà 49,88 42,32 14,79 0,00 soddisfazione 5,16 4,38 23,83 0,00 i gruppi si differenziano anche rispetto a variabili esterne ed i risultati sono coerenti Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 53

54 Dalle medie di gruppo con riferimento alle 9 variabili in esame emerge che: Cluster non ger 1,00 2,00 Media Media assortimento prodotto 4,4 2,6 > prezzo 1,6 3,2 < flessibilità del prezzo 8,9 6,8 > immagine del produttore 4,9 5,6 < servizio complessivo 3,0 2,9 copertura del mercato 2,5 2,8 < qualità prodotto 5,9 8,1 < fedeltà 49,88 42,32 > soddisfazione 5,16 4,38 > Il gruppo 1 attribuisce un importanza maggiore a: grado di assortimento flessibilità Il gruppo 2 attribuisce un importanza maggiore a: livello medio del prezzo immagine dell impresa copertura del mercato qualità percepita Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 54

55 Inoltre il gruppo 1 manifesta un più elevato livello di fedeltà e di soddisfazione: l azienda deve compiere ulteriori sforzi per migliorare la sua performance nei confronti del gruppo 2 rispetto alle variabili più importanti per tale gruppo Soluzione in 4 gruppi ANOVA CLUSTER ERRORE CLUSTER ERRORE (tra) (entro) Media dei quadrati df Media dei quadrati df Dev (somma dei quadrati) Assortim. 37,11 3 0, ,33 61,36 prezzo 28,53 3 0, ,59 55,94 flessibilità 39,27 3 0, ,80 72,51 immagine 15,53 3 0, ,58 80,15 servizio 7,49 3 0, ,46 33,41 copertura 8,24 3 0, ,73 34,10 qualità 53,22 3 0, ,66 89,12 TOT 568,1 426,6 I due gruppi non si differenziano in modo significativo rispetto a tutte le variabili Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 55

56 Numero di casi in ogni cluster Cluster Validi 100 soluzione simile a quella fornita dall algoritmo gerarchico Calcoliamo R 2 sulla base dei dati forniti nella tabella Anova: DEV TRA DEV ENTRO dev tot 568,1 426,6 994,794 R 2 =0,57 valore accettabile Medie di cluster per variabile 1,00 2,00 3,00 4,00 Tot Media Media Media Media assortimento prodotto 4,1 2,0 3,4 4,9 3,5 prezzo 1,6 2,7 4,0 1,5 2,4 flessibilità del prezzo 8,6 7,0 6,6 9,4 7,9 immagine del produttore 4,4 5,2 6,2 5,8 5,2 servizio complessivo 2,8 2,3 3,7 3,2 2,9 copertura del mercato 2,1 2,6 3,2 3,3 2,7 qualità prodotto 5,3 8,2 8,0 7,0 7 livello di fedeltà livello di soddisfazione 4,8 4,0 4,9 5,6 4,8 Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Medie molto simili a quelle ottenute mediante l algoritmo gerarchico (g=4): stabilità della soluzione 56

57 Variabili esterne : Cluster non ger F Pr>F Media fedeltà 46,33 41,23 46,77 54,21 11,3 0,00 soddisfazione 4,84 4,13 5,04 5,64 22,2 0,00 i gruppi si differenziano anche rispetto a tali variabili Dalle medie di gruppo con riferimento alle 9 variabili in esame emerge che: Clu1 e clu4 sono simili con riferimento a assortimento media più elevata: clu4 prezzo flessibilità media più elevata: clu4 e si differenziano da clu2 e clu3, ma ci sono alcune dimensioni rispetto alle quali i gruppi sono simili Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 57

58 In generale clu4 ha una percezione migliore di Hatco rispetto a clu1 Inoltre ha un livello di fedeltà maggiore ed è più soddisfatto Clu1 ha un livello medio di fedeltà e di soddisfazione Assegna un punteggio molto più basso della media ad Hatco per: copertura, immagine, qualità Clu2 è il gruppo meno soddisfatto e meno fedele: Ha una cattiva percezione con riferimento a assortimento e servizio Tuttavia assegna punteggio elevato ad Hatco per prezzo e qualità..per aumentare la quantità acquistata da questo gruppo (fedeltà) si potrebbe agire ad esempio migliorando l assortimento.. Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) 58

SDE Marco Riani

SDE Marco Riani SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici

Dettagli

Caso 2. Segmentazione a posteriori della clientela

Caso 2. Segmentazione a posteriori della clientela U SCELTA DEL MERCATO OBIETTIVO dimfam -- -- -- fìg... Albero di segmentazione con l'algoritmo Chaid. TAB... Profili dei segmenti ottenuti con l'applicazione di Chaid Famiglie di una persona Famiglie di

Dettagli

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008. COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008. ESERCIZIO I Si è applicata l analisi delle componenti principali a 97 modelli di fotocamere digitali, considerando 7 variabili ed ottenendo

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

Stesso valore medio per distribuzioni diverse

Stesso valore medio per distribuzioni diverse Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

ESERCIZIO 1. Vengono riportati di seguito i risultati di una cluster analysis gerarchica.

ESERCIZIO 1. Vengono riportati di seguito i risultati di una cluster analysis gerarchica. ESERCIZIO. Vengono riportati di seguito i risultati di una cluster analysis gerarchica. Programma di agglomerazione Stadio 5 6 7 8 9 0 5 6 7 8 9 0 5 6 7 8 9 0 5 6 7 8 9 Stadio di formazione accorpati del

Dettagli

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di ANALISI DEI CLUSTER In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di SPSS che non sono state incluse nel testo pubblicato. Si tratta di opzioni che, pur

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 9 maggio 2018 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità Metodi gerarchici

Dettagli

Cenni sulla cluster analysis

Cenni sulla cluster analysis Cenni sulla cluster analysis Distanze Dato un insieme E, una funzione d: E X E -> R + che ha le seguenti tre proprietà: d(x i, x j ) = 0 x i = x j d(x i, x j ) = d(x j, x i ) d(x i, x j ) d(x j, x h )

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.

Dettagli

Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005

Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005 Dipartimento di Fisica a.a. 23/24 Fisica Medica 2 Indici statistici 22/4/25 Ricerca statistica La ricerca può essere deduttiva (data una legge teorica nota cerco verifica tramite più misure) ovvero induttiva

Dettagli

Variabilità o Dispersione Definizione Attitudine di un fenomeno ad assumere diverse modalità

Variabilità o Dispersione Definizione Attitudine di un fenomeno ad assumere diverse modalità Punti deboli della media aritmetica Robustezza: sensibilità ai valori estremi Non rappresentava nei confronti di distribuzioni asimmetriche. La media aritmetica è un valore rappresentativo nei confronti

Dettagli

Corso di Statistica. Variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Corso di Statistica. Variabilità ed eterogeneità. Prof.ssa T. Laureti a.a Corso di Statistica Variabilità ed eterogeneità Prof.ssa T. Laureti a.a. 03-04 Variabilità Il calcolo di una media non esaurisce la descrizione sintetica di un fenomeno osservato in un collettivo Due insiemi

Dettagli

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali Elementi di Statistica Descrittiva La Variabilità V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali Soriano nel Cimino (VT), 5 Ottobre 2009 Pier Francesco

Dettagli

STATISTICA 1 ESERCITAZIONE 6

STATISTICA 1 ESERCITAZIONE 6 STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere

Dettagli

Prova finale del 6 giugno 2011

Prova finale del 6 giugno 2011 Prova finale del 6 giugno 2011 Esercizio A, da svolgere con carta e penna Si consideri la seguente matrice dei dati relativa a 3 unità statistiche e 3 variabili, X 1 e X 2 quantitative, X 3 dicotomica.

Dettagli

TECNICHE DI CLASSIFICAZIONE

TECNICHE DI CLASSIFICAZIONE TECNICHE DI CLASSIFICAZIONE La tecnica di classificazione più conosciuta è la cluster analysis, che ha l obiettivo di identificare gruppi di soggetti (o oggetti) omogenei al loro interno ed eterogenei

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche

Dettagli

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks

Dettagli

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING febbraio I

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING febbraio I COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING febbraio 2008 - I 1) Per un insieme di modelli di smartphone si sono costruiti i boxplot degli scostamenti standardizzati del prezzo e del peso ed

Dettagli

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in

Dettagli

Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche.

Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Misure di tendenza centrale e di variabilità: Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Il valore medio di una variabile in un gruppo di osservazioni

Dettagli

Suggerimento a proposito di decimali

Suggerimento a proposito di decimali Fonti e strumenti statistici per la comunicazione Prof.ssa Isabella Mingo A.A. 017-018 Suggerimento a proposito di decimali Quando si calcolano le frequenze relative è opportuno mantenere almeno 4 cifre

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

La variabilità. Monia Ranalli. Ranalli M. Variabilità Settimana # 2 1 / 14

La variabilità. Monia Ranalli. Ranalli M. Variabilità Settimana # 2 1 / 14 La variabilità Monia Ranalli Ranalli M. Variabilità Settimana # 2 1 / 14 Sommario Variabilità Definizione Misure di Variabilità Per tutti i caratteri: Entropia Per i carattere quantitativi: Varianza, Scostamento

Dettagli

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl 1/4 Capitolo 4 La variabilità di una distribuzione Intervalli di variabilità Box-plot Indici basati sullo scostamento dalla media Confronti di variabilità Standardizzazione Statistica - Metodologie per

Dettagli

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 3 Esercizi: 5, 6 Docente: Alessandra Durio 1 Contenuti I quantili nel caso dei dati raccolti in classi

Dettagli

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di

Dettagli

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indicatori di Posizione e di Variabilità Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indici Sintetici Consentono il passaggio da una pluralità

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata

Dettagli

Analisi Statistica per le Imprese

Analisi Statistica per le Imprese di Analisi Statistica per le Imprese Dip. di Economia Politica e Statistica Cap 5.3 Analisi e 1 / 18 di L'analisi rappresenta l'ultima che analiziamo e facendo riferimento al sistema di equazioni che abbiamo

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili)

Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili) LA MATRICE DEI DATI Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili) Esempi di: unità variabili individui Reddito,

Dettagli

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in

Dettagli

Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto

Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto di dati affidabili e accurati alle decisioni manageriali

Dettagli

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2017/18

Statistica. Matematica con Elementi di Statistica a.a. 2017/18 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi ISTITUZIONI DI STATISTICA A A 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona

Dettagli

Statistica Elementare

Statistica Elementare Statistica Elementare 1. Frequenza assoluta Per popolazione si intende l insieme degli elementi che sono oggetto di una indagine statistica, ovvero l insieme delle unità, dette unità statistiche o individui

Dettagli

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni

Dettagli

Elaborazione statistica di dati

Elaborazione statistica di dati Elaborazione statistica di dati CONCETTI DI BASE DI STATISTICA ELEMENTARE Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Collaudo sistemi di produzione IPOTESI:

Dettagli

SOLUZIONI DI ALCUNI ESERCIZI. Appello del

SOLUZIONI DI ALCUNI ESERCIZI. Appello del SOLUZIONI DI ALCUNI ESERCIZI Appello del 21-06- 2012 E stato osservato per un certo tempo un tipo di piccoli animali galleggianti (zooplankton- Daphnia magna) e si è notato che questi animali tendono ad

Dettagli

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.

Dettagli

Metodi di classificazione. Loredana Cerbara

Metodi di classificazione. Loredana Cerbara Loredana Cerbara I metodi di classificazione, anche detti in inglese cluster analysis, attengono alla categoria dei metodi esplorativi. Esistono centinaia di metodi di classificazione dei dati ed hanno

Dettagli

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2015-2016 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Distribuzione di frequenza relativa e percentuale: esempio

Distribuzione di frequenza relativa e percentuale: esempio Distribuzione di frequenza relativa e percentuale: esempio Sesso Freq. assol. F 3 M Totale 5 Sesso % F 60 M 40 Totale 100 Sesso Freq. assol. F 180 M 10 Totale 300 Sesso % F 60 M 40 Totale 100 Attenzione:

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva Caso di 1 variabile: i dati si presentano in una tabella: Nome soggetto Alabama Dato 11.6.. Per riassumere i dati si costruisce una distribuzione delle frequenze. 1 Si determina

Dettagli

Fonti e strumenti statistici per la comunicazione

Fonti e strumenti statistici per la comunicazione Fonti e strumenti statistici per la comunicazione Prof.ssa Isabella Mingo A.A. 018-019 Indici Medi Sintesi della distribuzione: gli indici medi Le distribuzioni delle variabili possono essere sintetizzate

Dettagli

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel: UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 5 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione

Dettagli

4. INDICI DI POSIZIONE

4. INDICI DI POSIZIONE UNIVERSITA DEGLI STUDI DI PERUGIA DIPARTIMENTO DI FILOSOFIA SCIENZE SOCIALI UMANE E DELLA FORMAZIONE Corso di Laurea in Scienze per l'investigazione e la Sicurezza. INDICI DI POSIZIONE Prof. Maurizio Pertichetti

Dettagli

Lezione 4: Indici di posizione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Lezione 4: Indici di posizione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria Lezione 4: Indici di posizione Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Indice di posizione Obiettivo di una misura di posizione è quello di

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici) Statistica La statistica può essere vista come la scienza che organizza ed analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva:

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

Indici di variabilità relativa

Indici di variabilità relativa Fonti e strumenti statistici per la comunicazione Prof.ssa Isabella Mingo A.A. 2014-2015 Indici di variabilità relativa Consentono di effettuare confronti sulla variabilità di fenomeni che presentano unità

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Matematica con Elementi di Statistica a.a. 2015/16 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

Statistica a.a Autovalutazione 1

Statistica a.a Autovalutazione 1 Statistica a.a. 016-17 Autovalutazione 1 CORSO: Diritto per le Imprese e le Istituzioni ATTENZIONE: alle domande aperte è stato dato un possibile esempio di risposta, altre parole possono essere usate

Dettagli

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli Dipartimento di Sociologia e Ricerca Sociale Corso di Laurea in Sociologia Insegnamento di Statistica (a.a. 2018-2019) dott.ssa Gaia Bertarelli Esercitazione n. 1 1. Si considerino i seguenti caratteri

Dettagli

Statistica. Campione

Statistica. Campione 1 STATISTICA DESCRITTIVA Temi considerati 1) 2) Distribuzioni statistiche 3) Rappresentazioni grafiche 4) Misure di tendenza centrale 5) Medie ferme o basali 6) Medie lasche o di posizione 7) Dispersione

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

Statistica per le ricerche di mercato

Statistica per le ricerche di mercato Università degli studi della Tuscia Dipartimento di Economia e Impresa Statistica per le ricerche di mercato a.a. 2012/13 Dr. Luca Secondi 01. Introduzione al corso 1 Statistica per le ricerche di mercato

Dettagli

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Esercizio 1. Questo e alcuni degli esercizi che proporremo nei prossimi giorni si basano sul

Dettagli

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri; Esercizio 1 Il corso di Statistica è frequentato da 10 studenti che presentano le seguenti caratteristiche Studente Sesso Colore Occhi Voto Soddisfazione Età Stefano M Nero 18 Per niente 21 Francesca F

Dettagli

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare! La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica

I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica Titolo della lezione: I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica Obiettivi dell unità didattica Comprendere l insieme delle procedure che si prefiggono di

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 015-016 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la

Dettagli

Cluster Analysis (2 parte)

Cluster Analysis (2 parte) Cluster Analysis (2 parte) Esempio 2 Data set: Nel data set Dieta (Dieta.txt, Dieta.sav) sono contenute informazioni sul consumo medio dei principali alimenti in 16 paesi Europei. Paese Cereali (Ce) Riso

Dettagli

Statistica. Lezioni: 7, 8. Statistica Descrittiva Univariata 3

Statistica. Lezioni: 7, 8. Statistica Descrittiva Univariata 3 Corsi di Laurea: a.a. 2017-18 Diritto per le Imprese e le istituzioni Scienze dell Amministrazione e Consulenza del Lavoro sienze Internazionali dello Sviluppo e della Cooperazione Statistica Statistica

Dettagli

La struttura dei dati

La struttura dei dati La struttura dei dati Carattere Qualitativo (mutabile statistica) Unità statistica Osservazione di uno o più caratteri Carattere Quantitativo (variabile statistica) Collettivo statistico Pagina 1 Rilevazione

Dettagli

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 39 Outline 1 2 3 4 5 6 7 8 () Statistica 2 / 39 La distribuzione unitaria semplice di un carattere

Dettagli

Dalla distribuzione unitaria a quella di frequenza

Dalla distribuzione unitaria a quella di frequenza Dalla distribuzione unitaria a quella di frequenza Cognome sesso età Livello soddisfaz ione Tipo albergo (categoria) Giorni permanenza Bianchi F 8 basso 4 Alimov F 5 medio 3 6 More M 19 alto 4 Wieser F

Dettagli

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1. STATISTICA Esonero 8 novembre 2014 Soluzione Quesito 1. Si consideri la seguente distribuzione unitaria dei salari degli impiegati di una compagnia (migliaia di euro): 2 3 5 3 2 9 3 7 8 1 a) calcolare

Dettagli

Istituzioni di Statistica e Statistica Economica

Istituzioni di Statistica e Statistica Economica Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 1 A. I dati riportati nella seguente tabella si riferiscono

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

Misure di diversità tra unità statistiche. Loredana Cerbara

Misure di diversità tra unità statistiche. Loredana Cerbara Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,

Dettagli

I metodi di Classificazione automatica

I metodi di Classificazione automatica L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO

Dettagli

Corso in Statistica Medica

Corso in Statistica Medica Corso in Statistica Medica Introduzione alle tecniche statistiche di elaborazione dati Regressione e correlazione Dott. Angelo Menna Università degli Studi di Chieti G. d Annunziod Annunzio Anno Accademico

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 07-Coefficienti di correlazione vers. 1.0 (29 ottobre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Concetti base - Classificazione dei caratteri. Antonello Maruotti

Concetti base - Classificazione dei caratteri. Antonello Maruotti Concetti base - Classificazione dei caratteri Antonello Maruotti Outline 1 Introduzione 2 Concetti base 3 Distribuzioni statistiche La Statistica Una citazione: Giuseppe Leti La mente umana non sa sintetizzare

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI

Dettagli

STATISTICA 1 ESERCITAZIONE 2

STATISTICA 1 ESERCITAZIONE 2 Frequenze STATISTICA 1 ESERCITAZIONE 2 Dott. Giuseppe Pandolfo 7 Ottobre 2013 RAPPRESENTAZIONE GRAFICA DEI DATI Le rappresentazioni grafiche dei dati consentono di cogliere la struttura e gli aspetti caratterizzanti

Dettagli

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII Indice XI XI XIII XV XVII L Editore ringrazia Ringraziamenti Autori Prefazione Obiettivi formativi XIX Istruzioni per gli studenti XIX Un po di storia XX Cosa è la Statistica XXI Come usare questo libro

Dettagli

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1

Dettagli

7. STATISTICA DESCRITTIVA

7. STATISTICA DESCRITTIVA 7. STATISTICA DESCRITTIVA Quando si effettua un indagine statistica si ha a che fare con un numeroso insieme di oggetti, detto popolazione del quale si intende esaminare una o più caratteristiche (matricole

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1. STATISTICA Esonero 8 novembre 2014 Soluzione Quesito 1. Si consideri la seguente distribuzione unitaria dei salari degli impiegati di una compagnia (migliaia di euro): 3 4 6 4 3 10 4 8 9 2 a) calcolare

Dettagli

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra

Dettagli