SDE Marco Riani

Documenti analoghi
ANALISI DEI DATI PER IL MARKETING 2014

1.8 Matrici di distanze

Distanze Analisi Esplorativa

Misure di diversità tra unità statistiche. Loredana Cerbara

ANALISI DEI DATI PER IL MARKETING 2014

Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili)

SDE Marco Riani

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Analisi Multivariata Prova finale del 3 giugno 2010

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.

ANALISI DEI DATI PER IL MARKETING 2016

I metodi di Classificazione automatica

STATISTICA PER LA DIGITAL ECONOMY Marco Riani

Prova finale del 6 giugno 2011

Analisi delle corrispondenze

Statistica per l Impresa

Indicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Analisi delle corrispondenze

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di

Statistica per l Impresa

Dispense Associazione PRELIMINARY DRAFT

SDE Marco Riani

Metodi statistici per le ricerche di mercato

STATISTICA PER LA DIGITAL ECONOMY 2017

Esercizi del 10 maggio 2012 da riconsegnare il 17 maggio 2012

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Analisi dei dati per la comunicazione

Prova scritta di ASM - Modulo Analisi Esplorativa del

Variabilità. ..senza variabilità non ci sarebbe la statistica

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento

ANALISI DEI DATI PER IL MARKETING 2017

Esercizi di statistica

Matematica Lezione 22

SDE Marco Riani

A.A. 2014/2015 Corso di Algebra Lineare

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

decisioni multiattributo lezione 10

1. variabili dicotomiche: 2 sole categorie A e B

SDE Marco Riani

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

ANALISI DEI DATI PER IL MARKETING 2014

PreCorso di Matematica - PCM Corso M-Z

Teoria e tecniche dei test. Concetti di base

misura. Adesso, ad un arbitrario punto P dello spazio associamo una terna di numeri reali x

misura. Adesso, ad un arbitrario punto P dello spazio associamo una terna di numeri reali x

Analisi esplorativa di dati multidimensionali

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Liceo delle Scienze Umane Fabrizio De André Dipartimento di Matematica e Fisica Programma di Matematica per il Biennio: a.s.

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

Alfonso Iodice D Enza

Statistica Elementare

Unità Carattere Modalità

PROGRAMMAZIONE MATEMATICA classe seconda economico/turistico:

Nuovi scenari per la matematica Salerno 29/08/2012.

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

S 2 p n X. + S2 p. n Y

La gestione dei risultati della valutazione. Claudio Mantovani

Una approssimazione allo spazio della fisica classica. Spazi affini euclidei.

Errata corrige. p. 10 riga 5 del secondo paragrafo: misurare

Casa dello Studente. Casa dello Studente

Spazi vettoriali euclidei.

INDICATORI DI TENDENZA CENTRALE

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Analisi delle componenti principali

Argomenti della lezione:

COGNOME.NOME...MATR..

Le matrici. Sia K un campo con elemento neutro dell addizione 0 ed elemento neutro della moltiplicazione 1.

Introduzione alla Matematica per le Scienze Sociali - parte II

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Esempi di confronti grafici

ESERCIZI DI STATISTICA SOCIALE

Variabilità e Concentrazione Esercitazione n 02

MATRICI E SISTEMI LINEARI

25 - Funzioni di più Variabili Introduzione

Elementi di Statistica

Daniela Lera A.A

STATISTICA PER LA DIGITAL ECONOMY Marco Riani

Statistica. Alfonso Iodice D Enza

Distribuzione di frequenza relativa e percentuale: esempio

PROGRAMMAZIONE DEL GRUPPO DISCIPLINARE A.S. 2016/17 INDIRIZZO SCOLASTICO: LICEO SCIENZE UMANE

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

Didattica della Matematica per il triennio Geometria sintetica e geometria analitica

Statistica. Lezioni: 7, 8. Statistica Descrittiva Univariata 3

Mugno Eugenio Matematica 2F

Statistica. Alfonso Iodice D Enza

PIANO DI LAVORO ANNUALE LICASTRO MARIA SAVERIA MATEMATICA CON INFORMATICA CLASSE: 1^ G. a. s Obiettivi cognitivi.

INDICATORI DI TENDENZA CENTRALE

Elementi di Psicometria (con laboratorio software 1)

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Maria Brigida Ferraro + Luca Tardella

Indici di tendenza centrale Media, mediana e moda.

Transcript:

SDE 2018 Marco Riani mriani@unipr.it http://www.riani.it

MISURE DI DISTANZA E SIMILARITA

SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra due unità statistiche di cui si conoscono i valori di p variabili Esempio: differenze tra le caratteristiche di due prodotti (marche) Date n unità statistiche posso individuare le coppie tra loro più simili e quelle maggiormente diverse E la premessa per la successiva individuazione di gruppi omogenei (segmenti del mercato)

Distanza tra due punti nel piano 8 7 6 5 4 Uj 3 2 1 0 Ui 0 1 2 3 4 5 6 7 8

DEFINIZIONE DI DISTANZA Dati due vettori p-dimensionali x, y, si dice distanza una funzione che gode delle seguenti proprietà: 1. Non negatività: d( x, y) 0 2. Identità: d( x, x) = 0 3. Simmetria: d( x, y) = d( y, x) 4. Disuguaglianza triangolare: d( x, y) d( x, z) + d( y, z)

DISTANZA EUCLIDEA Si considerino due unità statistiche: u i = [x i1, x i2,..., x ip ] u j = [x j1, x j2,..., x jp ] d ij = p s= 1 ( x is x js 2 )

DISTANZA DELLA CITTA A BLOCCHI d ij = p s= 1 x is x corrisponde ai due cateti js in R 2, agli spigoli del parallelepipedo in R 3

Distanza di Minkowski di ordine k Espressione generale di distanza, funzione del parametro k Per k = 1, city-block; per k =2, euclidea d ij lim( d k = p s= 1 ij ) = x is max x js x is k 1/ k x js, per k 1, distanza lagrangiana

Proprietà delle distanze di Minkowski Funzione decrescente dell indice k Invariante per traslazione delle variabili (somma algebrica d una costante) Non invariante se si moltiplicano i valori delle variabili per una costante Invariante per rotazione degli assi

NUMERO ORDINI E AMMONTARE (4 clienti) N. IMPORTO A 3 20 B 10 42 C 8 30 D 2 12 Distanza euclidea d AB = (3 10) 2 + (20 42) 2 = 23,087

Anteprima output Matrice delle distanze Distanza euclidea 1:A 2:B 3:C 4:D 1:A,000 23,087 11,180 8,062 2:B 23,087,000 12,166 31,048 3:C 11,180 12,166,000 18,974 4:D 8,062 31,048 18,974,000 Questa è una matrice di dissimilarità Matrice delle distanze Distanza City Block 1:A 2:B 3:C 4:D 1:A,000 29,000 15,000 9,000 2:B 29,000,000 14,000 38,000 3:C 15,000 14,000,000 24,000 4:D 9,000 38,000 24,000,000 Questa è una matrice di dissimilarità

ESEMPIO DISTANZE Matrice delle distanze Distanza euclidea 1:A 2:B 3:C 4:D 1:A,000 23,087 11,180 8,062 2:B 23,087,000 12,166 31,048 3:C 11,180 12,166,000 18,974 4:D 8,062 31,048 18,974,000 Questa è una matrice di dissimilarità Matrice delle distanze Distanza City Block 1:A 2:B 3:C 4:D 1:A,000 29,000 15,000 9,000 2:B 29,000,000 14,000 38,000 3:C 15,000 14,000,000 24,000 4:D 9,000 38,000 24,000,000 Questa è una matrice di dissimilarità

CONFRONTI TRA DISTANZA EUCLIDEA E CITY-BLOCK Distanza city-block dist. euclidea Distanza city-block risente in misura minore degli outliers Tra i due tipi di distanza non esiste sempre una relazione monotona (cioè gli ordinamenti o graduatorie possono essere diversi) Se le variabili sono espresse in unità di misura diverse occorre calcolarle sugli scostamenti standardizzati

CONFRONTI (continua) PRIMO CASO Unità X 1 X 2 1 10 5 2 12 7 d City-B = 4; d E = 8 SECONDO CASO 1 10 5 2 11 8 d City-B = 4; d E = 10

Z ordini e Z ammontare A 3 20 -,71 -,46 B 10 42 1,10 1,23 C 8 30,58,31 D 2 12 -,97-1,08 Statistiche descrittive N. ORDINI AMMONTARE Validi (listwise) N Deviazione Media std. 4 5,75 3,862 4 26,00 12,961 4

ESEMPIO DISTANZE STANDARDIZZATE (4 clienti) Distanza euclidea standardizzata 1:A 2:B 3:C 4:D 1:A,000 2,483 1,507,669 2:B 2,483,000 1,061 3,106 3:C 1,507 1,061,000 2,084 4:D,669 3,106 2,084,000 Questa è una matrice di dissimilarità Distanza City Block standardizzata 1:A 2:B 3:C 4:D 1:A,000 3,510 2,066,876 2:B 3,510,000 1,444 4,386 3:C 2,066 1,444,000 2,942 4:D,876 4,386 2,942,000 Questa è una matrice di dissimilarità

GRADUATORIE DISTANZE STANDARDIZZATE (In questo caso vi è una relazione monotona, ma non in generale) Distanza euclidea standardizzata 1:A 2:B 3:C 4:D 1:A,000 5,000 3,000 1,00 2:B,000 2,000 6,000 3:C 4:D,000 4,00,000 Questa è una matrice di dissimilarità Distanza City Block standardizzata 1:A 2:B 3:C 4:D 1:A,000 5,000 3,000 1,000 2:B,000 2,000 6,000 3:C 4:D,000 4,000,000 Questa è una matrice di dissimilarità

INDICI DI DISTANZA Il quadrato della distanza euclidea non soddisfa la proprietà di disuguaglianza triangolare (vedi esempio pag.318): è un indice di distanza Il quadrato della distanza euclidea soddisfa però la proprietà di additività: se le variabili sono suddivise in gruppi, l indice di distanza calcolato su tutte le variabili è uguale alla somma degli indici calcolati sui vari gruppi Esempio: variabili economiche, demografiche, sociali

Quadrato della distanza euclidea (4 clienti, dati originari) La distanza tra A e B è maggiore della somma delle distanze A-C e B-C 1:A 2:B 3:C 4:D Matrice delle distanze Distanza euclidea quadratica 1:A 2:B 3:C 4:D,000 533,000 125,000 65,000 533,000,000 148,000 964,000 125,000 148,000,000 360,000 65,000 964,000 360,000,000 Questa è una matrice di dissimilarità

ESERCIZIO In un indagine sulla qualità della vita il quotidiano Italia Oggi ha fornito, tra l altro, i seguenti dati sulla situazione ambientale in alcune province emiliane: ZTL= zone a traffico limitato (mq per abitante); VERDE = verde pubblico (mq per abitante); DIFF = raccolta differenziata rifiuti (in percentuale della raccolta totale). Si calcoli la corrispondente matrice degli scostamenti standardizzati; si calcoli la matrice delle distanze della città a blocchi dapprima sui dati originari e quindi sugli scostamenti standardizzati e se ne commenti il significato.

DATI PROVINCE ZTL VERDE DIFF PIACENZA 4.17 13.6 31.6 PARMA 4.10 13.0 14.7 REGGIO E. 0.82 13.3 36.7 MODENA 3.90 17.9 17.5

MATRICE DEGLI SCOST. STAND. M = [3.24; 14.45; 25.12] σ= [1.62; 2.31; 10.68] PROVINCE ZTL VERDE RACC. PIACENZA,57 -,37,61 PARMA,53 -,63 -,98 REGGIO E -1,50 -,50 1,08 MODENA,40 1,49 -,71

Distanze non stand. e stand. Matrice delle distanze Distanza City Block 1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA 1:PIACENZA,000 17,570 8,750 18,670 2:PARMA 17,570,000 25,580 7,900 3:REGGIO E 8,750 25,580,000 26,880 4:MODENA 18,670 7,900 26,880,000 Questa è una matrice di dissimilarità Matrice delle distanze standardizzate Distanza City Block 1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA 1:PIACENZA,000 1,884 2,672 3,345 2:PARMA 1,884,000 4,210 2,504 3:REGGIO E 2,672 4,210,000 5,684 4:MODENA 3,345 2,504 5,684,000 Questa è una matrice di dissimilarità

Interpretazione delle distanze Ordinale Su scala d intervalli Valutazione oggettiva (Teorema p. 332) DEFINIZIONE :Dati tre vettori x, y, z: Se xs ys xs zs per s = 1,2,..., p si dice che x è OGGETTIVAMENTE meno distante da y che da z

TEOREMA Enunciato: Se una coppia di vettori x e y è oggettivamente meno distante di x da z allora si conserva il verso della disuguaglianza per qualunque distanza appartenente alla classe di Minkowski, per k finito. Dimostrazione: p.333

Distanza Euclidea e distanza di Mahalanobis

Distanza euclidea Invariante per trasformazioni ortogonali

Distanza di Mahalanobis Tiene conto della correlazione tra le diverse variabili Invariante per trasformazioni lineari assume lo stesso valore se viene applicata ai dati originari oppure alle variabili standardizzate.

Richiami del biplot

Distanza Eucidea e di Mahalanobis (da un centroide)

INDICI DI SIMILARITA

SCOPI DEL CALCOLO Problema: misurare la rassomiglianza tra due unità statistiche di cui si conoscono i valori di p variabili qualitative binarie (o politomiche): INDICI DI SIMILARITA Esempio: somiglianza tra le caratteristiche di due modelli di automobili in base alla presenza assenza di p accessori (oppure: non possibile, a pagamento, di serie) Date n modelli posso individuare le coppie tra loro più simili Dissimilarità = 1 indice di similarità = analogo qualitativo della distanza

Similarità e market basket analysis Con la market basket analysis si studiano le relazioni tra coppie di prodotti acquistati insieme (presenti contemporaneamente in n carrelli) Con gli indici di similarità si studia la somiglianza tra coppie di clienti (numero di prodotti, rispetto al totale p, presenti contemporaneamente in due carrelli)

Esempio 1: indagine sull utilizzo di Internet Campione di studenti Records di due studenti del dataset con riferimento a 6 items (variabili binarie: usi di Internet sì no): Posta Studio Ricerche Svago Chat. Altro 1 0 0 0 1 0 1 0 0 0 1 1 C è similarità negli utilizzi dei due studenti? Possiamo formare gruppi di studenti che danno giudizi simili?

Esempio 2: sequenze di visita ad un sito web Similarità nel comportamento dei due visitatori? Pagine viste non viste. Altri esempi: segmentazione di prodotti in base a presenza/assenza di caratteristiche tecniche. comportamenti di acquisto similarità tra carrelli della spesa Possesso di p beni durevoli Presenza-assenza di p servizi in due comuni

Indici di similarità Nel caso di variabili binarie (v. Esempio 1) l aspetto più rilevante della similarità è il numero di co-presenze (positive matches) frequenza di items presenti contemporaneamente nelle due unità I diversi indici di similarità differiscono principalmente per come trattano gli items assenti in una od entrambe le unità qualificano in modo diverso la similarità, a seconda dell applicazione. Esempio 1: p accessori di due modelli di auto Esempio 2: p marche di profumi acquistate/non acquistate da due clienti

SIMBOLOGIA Notazione: u i, u j due unità (studenti, visitatori del sito, modelli di auto, clienti ) di cui si misura la similarità p = numero di items (nell Es. 1: p = 6)

La similarità tra u i e u j può essere valutata attraverso una Tabella 2 2 classificazione dei p items per le due unità: u i \ u j Presente (1) Assente (0) Tot. Presente (1) a b a + b Assente (0) c d c + d Tot. a + c b + d p a = numero di co-presenze d = numero di co-assenze a + b = numero di items presenti nell unità u i a + c = numero di items presenti nell unità u j Attenzione: p è il numero di variabili binarie

Indici di similarità più utilizzati Indice di Russel Rao: S ij = a / p Indice di Jaccard esclude le co-assenze: S ij = a / (a + b + c) Indice di corrispondenza semplice di Sokal- Michener (simple matching) numero co-presenze + numero co-assenze sul totale degli items: S ij = (a + d) / p Dipende dal numero di items elencati Altri indici di similarità: pp. 350-351; SPSS

Esempio 1 (p = 6) similarità tra i due studenti con riferimento agli utilizzi di Internet u 1 \ u 2 Presente Assente Tot. (1) (0) Presente (1) 2 0 2 Assente (0) 1 3 4 Tot. 3 3 6 Posta Studio Ricerche Svago Chat. Altro 1 0 0 0 1 0 1 0 0 0 1 1 Russel Rao S ij = a / p = 2/6 = 0.333 Jaccard: S ij = a / (a + b + c) =2/(2+0+1) = 2/(6-3) = 0.667 Sokal-Michener S ij = (a + d) / p: (2+3)/6 = 0.833

Russel Rao S ij = a / p : = 2/6 = 0.333 Jaccard: S ij = a / (a + b + c) =2/(2+0+1) = 2/(6-3) = 0.667 Sokal-Michener S ij = (a + d) / p (simple matching): (2+3)/6 = 0.833 La disuguaglianza che esiste tra gli indici sopra riportati vale in generale La scelta dell indice dipende dall importanza data alle co-assenze qualificano la similarità?

Alcune proprietà di tutti gli indici di similarità Non negatività S ij 0 Normalizzazione S ii = 1 Simmetria S ij = S ji Relazione tra similarità e dissimilarità D ij = 1 S ij

SPSS per il calcolo delle matrici di similarità Percorso: Analizza Correlazione distanze similarità Scelta delle variabili binarie (codificate però come numeriche) da analizzare Consente di calcolare la matrice degli indici di similarità con la formula prescelta IN ALTERNATIVA: CALCOLO NELL AMBITO DEL METODO GERARCHICO DI CLUSTER ANALYSIS

ESPRESSIONE GENERALE DEGLI INDICI DI SIMILARITA (formula di Zani, p. 350) Z S ij = aw 3 aw1 + dw JACCARD : w 1 4 + dw2 + ( b + RUSSEL RAO : w = w c) w = 1;... w SOKAL MICHENER : pesi = 1 1 3 = = w w 3 5 = 5 w 4 = w 2 5 = = 1;... w w 4 = 0 2 = 0 Altri...

Distanze con variabili binarie Esempio 1: indagine sugli utilizzi di Internet Posta Studio Ricerche Svago Chat Altro 1 0 0 0 1 0 1 0 0 0 1 1 Dissimilarità basata sull indice simple matching: D ij = 1 S ij = 1 5/6 = 1/6 S ij = (a + d) / p Il complemento a 1 dell indice di corrispondenza semplice è uguale alla distanza media (cioè rapportata al numero dei caratteri p) calcolata con la metrica della città a blocchi o con il quadrato della distanza euclidea.

Similarità per fenomeni qualitativi politomici, con più di due modalità che si escludono a vicenda Codificazione disgiuntiva: date k>2 modalità si considerano k variabili binarie Esempio: Forma giuridica SPA SNC SAS ALTRA U 1 0 1 0 0 U 2 1 0 0 0 Per ogni variabile un solo 1 per riga se le modalità si escludono a vicenda

SIMILARITA PER CODIFICA DISGIUNTIVA Tabella p. 356: le coppie 0-0 sono prive di significato Indice formalmente analogo a Jaccard (8.46) e formula (8.47), indice di DICE α A S ij = α + β + γ α α B S ij = α + 0.5( β + γ ) = p

STRATEGIE PER CARATTERI QUALITATIVI E QUANTITATIVI p. 358 e seg. ESEMPI: home theatre p. 8 ; navigatori in SPSS 1) Cluster analysis partendo dalla matrice delle distanze e dalla matrice delle similarità; poi confronto. 2) Trasformazione dei dati e riduzione ad un unica scala; problemi: Difficoltà di quantificazione nel passaggio da ordinali a quantitativi (possibilità di soluzioni diverse); Perdita d informazioni nella trasformazione di caratteri quantitativi in ordinali o dicotomici 3) Definizione di indici ad hoc

INDICE DI GOWER S ij ove : w = ijs = p s= 1 p w z s= 1 ijs w w ijs ijs = 1se è possibile il confronto tra le unità i e 0 altrimenti ijs j IL CONFRONTO NON E' POSSIBILE : SE VI E' UN DATO MANCANTE IN ALMENO UNA DELLE DUE UNITA' OPPURE QUANDOSI MANIFESTA UNA COASSENZA (0-0)

SIGNIFICATO DI Z ijs Caratteri dicotomici : z ijs =1 se le unità i e j mostrano una copresenza per il carattere s; z ijs = 0 altrimenti. Caratteri politomici: z ijs =1 se le unità i e j mostrano la stessa modalità per il carattere s; z ijs = 0 altrimenti. Variabili quantitative o gradi ordinali: S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js

Valori dell indice di Gower = 1 se le unità i e j presentano modalità uguali per ciascuno dei caratteri qualitativi e valori uguali per ciascuna delle variabili quantitative (PERFETTA SIMILARITA ) = 0 se le unità i e j presentano modalità diverse per ciascuno dei caratteri qualitativi e per ciascuna delle variabili quantitative un unità presenta il massimo e l altra il minimo (MASSIMA DIVERSITA ) Nel caso di sole variabili binarie coincide con l indice di Jaccard

ESEMPIO: 3 FRIGORIFERI Marca capacità prezzo allarme dispenser display S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js AEG 380 700 1 0 0 BOSCH 500 1800 1 1 1 IGNIS 310 480 0 0 0 K=range 190 1320 AEG-BOSCH: GOWER = [(1-120/190)+ (1-1100/1320)+1+0+0] / 5= 0.307

ESEMPIO: 3 FRIGORIFERI Marca capacità prezzo allarme dispenser display S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js AEG 380 700 1 0 0 BOSCH 500 1800 1 1 1 IGNIS 310 480 0 0 0 K=range 190 1320 AEG-IGNIS: GOWER = [(1-70/190) + (1-220/1320) + 0] /3 = 0.488 vi sono due co-assenze

ESEMPIO: 3 FRIGORIFERI Marca capacità prezzo allarme dispenser display S p s= 1 ij = p z s= 1 ijs w w ijs ijs z ijs =1 x is K x s js AEG 380 700 1 0 0 BOSCH 500 1800 1 1 1 IGNIS 310 480 0 0 0 K=range 190 1320 BOSCH-IGNIS: GOWER = 0

ESERCIZIO Si è confrontata la presenza (1) oppure l assenza (0) di 15 accessori su due modelli A e B di MP3, ottenendo la tabella riportata di seguito. Si calcolino i diversi indici di similarità e se ne commenti il significato. Assumendo i totali marginali della tabella come prefissati, si scrivano le frequenze di casella corrispondenti all ipotesi di maggiore similarità possibile tra i due modelli, calcolando anche il valore che presenterebbero in tal caso i vari indici di similarità. A \ B 1 0 1 9 1 0 2 3

SOLUZIONE Russel-Rao: 9/15 =0.6 Jaccard: 9/12 = 0.75 Sokal-Michener: 12/15 =0.8 A\B 1 0 Tot. 1 10 0 10 0 1 4 5 Tot. 11 4 15

ESERCIZIO Si sono rilevate le categorie di beni alimentari acquistati da 3 clienti (1 = acquistato; 0 = non acquistato): CLIENTE pane pasta acqua birra vino carni pesce salumi latte caffè olio burro A 1 1 0 0 1 0 1 0 0 0 1 1 B 1 1 1 1 0 1 0 0 1 1 0 1 C 1 0 1 0 0 1 0 0 1 0 1 0 Si calcolino le matrici dei diversi indici di similarità fra i 3 clienti. Si dica se esiste una relazione monotona tra gli indici che compaiono nelle differenti matrici.

RISOLUZIONE SIMILARITA A - B A / B 1 0 TOT 1 3 3 6 0 5 1 6 TOT 8 4 12 R-R=3/12 J =3/11 S-M=4/12

RISOLUZIONE Le matrici degli indici di similarità fra i tre clienti, indicati con A, B, C, sono le seguenti: Russel Rao A B C A 1 0.25 0.17 B 1 0.33 C 1 Jaccard A B C A 1 0.27 0.22 B 1 0.44 C 1 Sokal Michener A B C A 1 0.33 0.42 B 1 0.58 C 1 La relazione monotona esiste tra le matrici degli indici di Russel Rao e di Jaccard, ma non con la matrice degli indici di Sokal Michener (vi è una inversione dei gradi nella prima riga).