SDE Marco Riani

SDE 2018 Marco Riani mriani@unipr.it http://www.riani.it

MISURE DI DISTANZA E SIMILARITA

SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra due unità statistiche di cui si conoscono i valori di p variabili Esempio: differenze tra le caratteristiche di due prodotti (marche) Date n unità statistiche posso individuare le coppie tra loro più simili e quelle maggiormente diverse E la premessa per la successiva individuazione di gruppi omogenei (segmenti del mercato)

Distanza tra due punti nel piano 8 7 6 5 4 Uj 3 2 1 0 Ui 0 1 2 3 4 5 6 7 8

DEFINIZIONE DI DISTANZA Dati due vettori p-dimensionali x, y, si dice distanza una funzione che gode delle seguenti proprietà: 1. Non negatività: d( x, y) 0 2. Identità: d( x, x) = 0 3. Simmetria: d( x, y) = d( y, x) 4. Disuguaglianza triangolare: d( x, y) d( x, z) + d( y, z)

DISTANZA EUCLIDEA Si considerino due unità statistiche: u i = [x i1, x i2,..., x ip ] u j = [x j1, x j2,..., x jp ] d ij = p s= 1 ( x is x js 2 )

DISTANZA DELLA CITTA A BLOCCHI d ij = p s= 1 x is x corrisponde ai due cateti js in R 2, agli spigoli del parallelepipedo in R 3

Distanza di Minkowski di ordine k Espressione generale di distanza, funzione del parametro k Per k = 1, city-block; per k =2, euclidea d ij lim( d k = p s= 1 ij ) = x is max x js x is k 1/ k x js, per k 1, distanza lagrangiana

Proprietà delle distanze di Minkowski Funzione decrescente dell indice k Invariante per traslazione delle variabili (somma algebrica d una costante) Non invariante se si moltiplicano i valori delle variabili per una costante Invariante per rotazione degli assi

NUMERO ORDINI E AMMONTARE (4 clienti) N. IMPORTO A 3 20 B 10 42 C 8 30 D 2 12 Distanza euclidea d AB = (3 10) 2 + (20 42) 2 = 23,087

Anteprima output Matrice delle distanze Distanza euclidea 1:A 2:B 3:C 4:D 1:A,000 23,087 11,180 8,062 2:B 23,087,000 12,166 31,048 3:C 11,180 12,166,000 18,974 4:D 8,062 31,048 18,974,000 Questa è una matrice di dissimilarità Matrice delle distanze Distanza City Block 1:A 2:B 3:C 4:D 1:A,000 29,000 15,000 9,000 2:B 29,000,000 14,000 38,000 3:C 15,000 14,000,000 24,000 4:D 9,000 38,000 24,000,000 Questa è una matrice di dissimilarità

ESEMPIO DISTANZE Matrice delle distanze Distanza euclidea 1:A 2:B 3:C 4:D 1:A,000 23,087 11,180 8,062 2:B 23,087,000 12,166 31,048 3:C 11,180 12,166,000 18,974 4:D 8,062 31,048 18,974,000 Questa è una matrice di dissimilarità Matrice delle distanze Distanza City Block 1:A 2:B 3:C 4:D 1:A,000 29,000 15,000 9,000 2:B 29,000,000 14,000 38,000 3:C 15,000 14,000,000 24,000 4:D 9,000 38,000 24,000,000 Questa è una matrice di dissimilarità

CONFRONTI TRA DISTANZA EUCLIDEA E CITY-BLOCK Distanza city-block dist. euclidea Distanza city-block risente in misura minore degli outliers Tra i due tipi di distanza non esiste sempre una relazione monotona (cioè gli ordinamenti o graduatorie possono essere diversi) Se le variabili sono espresse in unità di misura diverse occorre calcolarle sugli scostamenti standardizzati

CONFRONTI (continua) PRIMO CASO Unità X 1 X 2 1 10 5 2 12 7 d City-B = 4; d E = 8 SECONDO CASO 1 10 5 2 11 8 d City-B = 4; d E = 10

Z ordini e Z ammontare A 3 20 -,71 -,46 B 10 42 1,10 1,23 C 8 30,58,31 D 2 12 -,97-1,08 Statistiche descrittive N. ORDINI AMMONTARE Validi (listwise) N Deviazione Media std. 4 5,75 3,862 4 26,00 12,961 4

ESEMPIO DISTANZE STANDARDIZZATE (4 clienti) Distanza euclidea standardizzata 1:A 2:B 3:C 4:D 1:A,000 2,483 1,507,669 2:B 2,483,000 1,061 3,106 3:C 1,507 1,061,000 2,084 4:D,669 3,106 2,084,000 Questa è una matrice di dissimilarità Distanza City Block standardizzata 1:A 2:B 3:C 4:D 1:A,000 3,510 2,066,876 2:B 3,510,000 1,444 4,386 3:C 2,066 1,444,000 2,942 4:D,876 4,386 2,942,000 Questa è una matrice di dissimilarità

GRADUATORIE DISTANZE STANDARDIZZATE (In questo caso vi è una relazione monotona, ma non in generale) Distanza euclidea standardizzata 1:A 2:B 3:C 4:D 1:A,000 5,000 3,000 1,00 2:B,000 2,000 6,000 3:C 4:D,000 4,00,000 Questa è una matrice di dissimilarità Distanza City Block standardizzata 1:A 2:B 3:C 4:D 1:A,000 5,000 3,000 1,000 2:B,000 2,000 6,000 3:C 4:D,000 4,000,000 Questa è una matrice di dissimilarità

INDICI DI DISTANZA Il quadrato della distanza euclidea non soddisfa la proprietà di disuguaglianza triangolare (vedi esempio pag.318): è un indice di distanza Il quadrato della distanza euclidea soddisfa però la proprietà di additività: se le variabili sono suddivise in gruppi, l indice di distanza calcolato su tutte le variabili è uguale alla somma degli indici calcolati sui vari gruppi Esempio: variabili economiche, demografiche, sociali

Quadrato della distanza euclidea (4 clienti, dati originari) La distanza tra A e B è maggiore della somma delle distanze A-C e B-C 1:A 2:B 3:C 4:D Matrice delle distanze Distanza euclidea quadratica 1:A 2:B 3:C 4:D,000 533,000 125,000 65,000 533,000,000 148,000 964,000 125,000 148,000,000 360,000 65,000 964,000 360,000,000 Questa è una matrice di dissimilarità

ESERCIZIO In un indagine sulla qualità della vita il quotidiano Italia Oggi ha fornito, tra l altro, i seguenti dati sulla situazione ambientale in alcune province emiliane: ZTL= zone a traffico limitato (mq per abitante); VERDE = verde pubblico (mq per abitante); DIFF = raccolta differenziata rifiuti (in percentuale della raccolta totale). Si calcoli la corrispondente matrice degli scostamenti standardizzati; si calcoli la matrice delle distanze della città a blocchi dapprima sui dati originari e quindi sugli scostamenti standardizzati e se ne commenti il significato.

DATI PROVINCE ZTL VERDE DIFF PIACENZA 4.17 13.6 31.6 PARMA 4.10 13.0 14.7 REGGIO E. 0.82 13.3 36.7 MODENA 3.90 17.9 17.5

MATRICE DEGLI SCOST. STAND. M = [3.24; 14.45; 25.12] σ= [1.62; 2.31; 10.68] PROVINCE ZTL VERDE RACC. PIACENZA,57 -,37,61 PARMA,53 -,63 -,98 REGGIO E -1,50 -,50 1,08 MODENA,40 1,49 -,71

Distanze non stand. e stand. Matrice delle distanze Distanza City Block 1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA 1:PIACENZA,000 17,570 8,750 18,670 2:PARMA 17,570,000 25,580 7,900 3:REGGIO E 8,750 25,580,000 26,880 4:MODENA 18,670 7,900 26,880,000 Questa è una matrice di dissimilarità Matrice delle distanze standardizzate Distanza City Block 1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA 1:PIACENZA,000 1,884 2,672 3,345 2:PARMA 1,884,000 4,210 2,504 3:REGGIO E 2,672 4,210,000 5,684 4:MODENA 3,345 2,504 5,684,000 Questa è una matrice di dissimilarità

Interpretazione delle distanze Ordinale Su scala d intervalli Valutazione oggettiva (Teorema p. 332) DEFINIZIONE :Dati tre vettori x, y, z: Se xs ys xs zs per s = 1,2,..., p si dice che x è OGGETTIVAMENTE meno distante da y che da z

TEOREMA Enunciato: Se una coppia di vettori x e y è oggettivamente meno distante di x da z allora si conserva il verso della disuguaglianza per qualunque distanza appartenente alla classe di Minkowski, per k finito. Dimostrazione: p.333

Distanza Euclidea e distanza di Mahalanobis

Distanza euclidea Invariante per trasformazioni ortogonali

Distanza di Mahalanobis Tiene conto della correlazione tra le diverse variabili Invariante per trasformazioni lineari assume lo stesso valore se viene applicata ai dati originari oppure alle variabili standardizzate.

Richiami del biplot

Distanza Eucidea e di Mahalanobis (da un centroide)

INDICI DI SIMILARITA

SCOPI DEL CALCOLO Problema: misurare la rassomiglianza tra due unità statistiche di cui si conoscono i valori di p variabili qualitative binarie (o politomiche): INDICI DI SIMILARITA Esempio: somiglianza tra le caratteristiche di due modelli di automobili in base alla presenza assenza di p accessori (oppure: non possibile, a pagamento, di serie) Date n modelli posso individuare le coppie tra loro più simili Dissimilarità = 1 indice di similarità = analogo qualitativo della distanza

Similarità e market basket analysis Con la market basket analysis si studiano le relazioni tra coppie di prodotti acquistati insieme (presenti contemporaneamente in n carrelli) Con gli indici di similarità si studia la somiglianza tra coppie di clienti (numero di prodotti, rispetto al totale p, presenti contemporaneamente in due carrelli)

Esempio 1: indagine sull utilizzo di Internet Campione di studenti Records di due studenti del dataset con riferimento a 6 items (variabili binarie: usi di Internet sì no): Posta Studio Ricerche Svago Chat. Altro 1 0 0 0 1 0 1 0 0 0 1 1 C è similarità negli utilizzi dei due studenti? Possiamo formare gruppi di studenti che danno giudizi simili?

Esempio 2: sequenze di visita ad un sito web Similarità nel comportamento dei due visitatori? Pagine viste non viste. Altri esempi: segmentazione di prodotti in base a presenza/assenza di caratteristiche tecniche. comportamenti di acquisto similarità tra carrelli della spesa Possesso di p beni durevoli Presenza-assenza di p servizi in due comuni

Indici di similarità Nel caso di variabili binarie (v. Esempio 1) l aspetto più rilevante della similarità è il numero di co-presenze (positive matches) frequenza di items presenti contemporaneamente nelle due unità I diversi indici di similarità differiscono principalmente per come trattano gli items assenti in una od entrambe le unità qualificano in modo diverso la similarità, a seconda dell applicazione. Esempio 1: p accessori di due modelli di auto Esempio 2: p marche di profumi acquistate/non acquistate da due clienti

SIMBOLOGIA Notazione: u i, u j due unità (studenti, visitatori del sito, modelli di auto, clienti ) di cui si misura la similarità p = numero di items (nell Es. 1: p = 6)

La similarità tra u i e u j può essere valutata attraverso una Tabella 2 2 classificazione dei p items per le due unità: u i \ u j Presente (1) Assente (0) Tot. Presente (1) a b a + b Assente (0) c d c + d Tot. a + c b + d p a = numero di co-presenze d = numero di co-assenze a + b = numero di items presenti nell unità u i a + c = numero di items presenti nell unità u j Attenzione: p è il numero di variabili binarie

Indici di similarità più utilizzati Indice di Russel Rao: S ij = a / p Indice di Jaccard esclude le co-assenze: S ij = a / (a + b + c) Indice di corrispondenza semplice di Sokal- Michener (simple matching) numero co-presenze + numero co-assenze sul totale degli items: S ij = (a + d) / p Dipende dal numero di items elencati Altri indici di similarità: pp. 350-351; SPSS

Esempio 1 (p = 6) similarità tra i due studenti con riferimento agli utilizzi di Internet u 1 \ u 2 Presente Assente Tot. (1) (0) Presente (1) 2 0 2 Assente (0) 1 3 4 Tot. 3 3 6 Posta Studio Ricerche Svago Chat. Altro 1 0 0 0 1 0 1 0 0 0 1 1 Russel Rao S ij = a / p = 2/6 = 0.333 Jaccard: S ij = a / (a + b + c) =2/(2+0+1) = 2/(6-3) = 0.667 Sokal-Michener S ij = (a + d) / p: (2+3)/6 = 0.833

Russel Rao S ij = a / p : = 2/6 = 0.333 Jaccard: S ij = a / (a + b + c) =2/(2+0+1) = 2/(6-3) = 0.667 Sokal-Michener S ij = (a + d) / p (simple matching): (2+3)/6 = 0.833 La disuguaglianza che esiste tra gli indici sopra riportati vale in generale La scelta dell indice dipende dall importanza data alle co-assenze qualificano la similarità?

Alcune proprietà di tutti gli indici di similarità Non negatività S ij 0 Normalizzazione S ii = 1 Simmetria S ij = S ji Relazione tra similarità e dissimilarità D ij = 1 S ij

SPSS per il calcolo delle matrici di similarità Percorso: Analizza Correlazione distanze similarità Scelta delle variabili binarie (codificate però come numeriche) da analizzare Consente di calcolare la matrice degli indici di similarità con la formula prescelta IN ALTERNATIVA: CALCOLO NELL AMBITO DEL METODO GERARCHICO DI CLUSTER ANALYSIS

ESPRESSIONE GENERALE DEGLI INDICI DI SIMILARITA (formula di Zani, p. 350) Z S ij = aw 3 aw1 + dw JACCARD : w 1 4 + dw2 + ( b + RUSSEL RAO : w = w c) w = 1;... w SOKAL MICHENER : pesi = 1 1 3 = = w w 3 5 = 5 w 4 = w 2 5 = = 1;... w w 4 = 0 2 = 0 Altri...

Distanze con variabili binarie Esempio 1: indagine sugli utilizzi di Internet Posta Studio Ricerche Svago Chat Altro 1 0 0 0 1 0 1 0 0 0 1 1 Dissimilarità basata sull indice simple matching: D ij = 1 S ij = 1 5/6 = 1/6 S ij = (a + d) / p Il complemento a 1 dell indice di corrispondenza semplice è uguale alla distanza media (cioè rapportata al numero dei caratteri p) calcolata con la metrica della città a blocchi o con il quadrato della distanza euclidea.

Similarità per fenomeni qualitativi politomici, con più di due modalità che si escludono a vicenda Codificazione disgiuntiva: date k>2 modalità si considerano k variabili binarie Esempio: Forma giuridica SPA SNC SAS ALTRA U 1 0 1 0 0 U 2 1 0 0 0 Per ogni variabile un solo 1 per riga se le modalità si escludono a vicenda

SIMILARITA PER CODIFICA DISGIUNTIVA Tabella p. 356: le coppie 0-0 sono prive di significato Indice formalmente analogo a Jaccard (8.46) e formula (8.47), indice di DICE α A S ij = α + β + γ α α B S ij = α + 0.5( β + γ ) = p

STRATEGIE PER CARATTERI QUALITATIVI E QUANTITATIVI p. 358 e seg. ESEMPI: home theatre p. 8 ; navigatori in SPSS 1) Cluster analysis partendo dalla matrice delle distanze e dalla matrice delle similarità; poi confronto. 2) Trasformazione dei dati e riduzione ad un unica scala; problemi: Difficoltà di quantificazione nel passaggio da ordinali a quantitativi (possibilità di soluzioni diverse); Perdita d informazioni nella trasformazione di caratteri quantitativi in ordinali o dicotomici 3) Definizione di indici ad hoc

INDICE DI GOWER S ij ove : w = ijs = p s= 1 p w z s= 1 ijs w w ijs ijs = 1se è possibile il confronto tra le unità i e 0 altrimenti ijs j IL CONFRONTO NON E' POSSIBILE : SE VI E' UN DATO MANCANTE IN ALMENO UNA DELLE DUE UNITA' OPPURE QUANDOSI MANIFESTA UNA COASSENZA (0-0)

SIGNIFICATO DI Z ijs Caratteri dicotomici : z ijs =1 se le unità i e j mostrano una copresenza per il carattere s; z ijs = 0 altrimenti. Caratteri politomici: z ijs =1 se le unità i e j mostrano la stessa modalità per il carattere s; z ijs = 0 altrimenti. Variabili quantitative o gradi ordinali: S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js

Valori dell indice di Gower = 1 se le unità i e j presentano modalità uguali per ciascuno dei caratteri qualitativi e valori uguali per ciascuna delle variabili quantitative (PERFETTA SIMILARITA ) = 0 se le unità i e j presentano modalità diverse per ciascuno dei caratteri qualitativi e per ciascuna delle variabili quantitative un unità presenta il massimo e l altra il minimo (MASSIMA DIVERSITA ) Nel caso di sole variabili binarie coincide con l indice di Jaccard

ESEMPIO: 3 FRIGORIFERI Marca capacità prezzo allarme dispenser display S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js AEG 380 700 1 0 0 BOSCH 500 1800 1 1 1 IGNIS 310 480 0 0 0 K=range 190 1320 AEG-BOSCH: GOWER = [(1-120/190)+ (1-1100/1320)+1+0+0] / 5= 0.307

ESEMPIO: 3 FRIGORIFERI Marca capacità prezzo allarme dispenser display S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js AEG 380 700 1 0 0 BOSCH 500 1800 1 1 1 IGNIS 310 480 0 0 0 K=range 190 1320 AEG-IGNIS: GOWER = [(1-70/190) + (1-220/1320) + 0] /3 = 0.488 vi sono due co-assenze

ESEMPIO: 3 FRIGORIFERI Marca capacità prezzo allarme dispenser display S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js AEG 380 700 1 0 0 BOSCH 500 1800 1 1 1 IGNIS 310 480 0 0 0 K=range 190 1320 BOSCH-IGNIS: GOWER = 0

ESERCIZIO Si è confrontata la presenza (1) oppure l assenza (0) di 15 accessori su due modelli A e B di MP3, ottenendo la tabella riportata di seguito. Si calcolino i diversi indici di similarità e se ne commenti il significato. Assumendo i totali marginali della tabella come prefissati, si scrivano le frequenze di casella corrispondenti all ipotesi di maggiore similarità possibile tra i due modelli, calcolando anche il valore che presenterebbero in tal caso i vari indici di similarità. A \ B 1 0 1 9 1 0 2 3

SOLUZIONE Russel-Rao: 9/15 =0.6 Jaccard: 9/12 = 0.75 Sokal-Michener: 12/15 =0.8 A\B 1 0 Tot. 1 10 0 10 0 1 4 5 Tot. 11 4 15

ESERCIZIO Si sono rilevate le categorie di beni alimentari acquistati da 3 clienti (1 = acquistato; 0 = non acquistato): CLIENTE pane pasta acqua birra vino carni pesce salumi latte caffè olio burro A 1 1 0 0 1 0 1 0 0 0 1 1 B 1 1 1 1 0 1 0 0 1 1 0 1 C 1 0 1 0 0 1 0 0 1 0 1 0 Si calcolino le matrici dei diversi indici di similarità fra i 3 clienti. Si dica se esiste una relazione monotona tra gli indici che compaiono nelle differenti matrici.

RISOLUZIONE SIMILARITA A - B A / B 1 0 TOT 1 3 3 6 0 5 1 6 TOT 8 4 12 R-R=3/12 J =3/11 S-M=4/12

RISOLUZIONE Le matrici degli indici di similarità fra i tre clienti, indicati con A, B, C, sono le seguenti: Russel Rao A B C A 1 0.25 0.17 B 1 0.33 C 1 Jaccard A B C A 1 0.27 0.22 B 1 0.44 C 1 Sokal Michener A B C A 1 0.33 0.42 B 1 0.58 C 1 La relazione monotona esiste tra le matrici degli indici di Russel Rao e di Jaccard, ma non con la matrice degli indici di Sokal Michener (vi è una inversione dei gradi nella prima riga).