Regole associative Prof. Paolo Giudici
Market basket analysis La Market Basket Analysis considera i comportamenti di acquisto dei consumatori, tipicamente in un negozio (es. supermercato) I dati consistono di tutte le transazioni di acquisto in un certo intervallo temporale (ad es. dai possessori di carta fedeltà). Lo scopo dell analisi è comprendere la strutttura associativa nei comportamenti di acquisto, per intraprendere azioni di marketing.
I dati a disposizione Database fornito da AC Nielsen Italia (aggiornato rispetto a Cap 13) Parte di un database riguardante 37 negozi di una catena di supermercati. Le transazioni registrate sono quelle effettuate dai titolari di carta fedeltà. Il periodo consta di 75 giorni, dal 2 gennaio al 21 aprile, 2001. Abbiamo scelto 1 negozio rappresentativo, con un area di ca.12000 mq. Numero di visite medio nel periodo: 7.85. Numero di carte fedeltà: 7301. Spesa media: 28.27 Euro. Numero totale di prodotti: circa 5000, Indipendentemente dalla marca, formato e tipo specifico. Abbiamo raggruppato i prodotti in categorie merceologiche (493) e scelte le 20 più frequentemente acquistate.
Categorie di prodotti considerati, loro frequenza
Organizzazione dei dati in forma transazionale Numero totale delle transazioni = 46727
Organizzazione dei dati in forma standard E una matrice dei dati tradizionale, per titolari di carta (righe); categorie di prodotti (colonne)
Analisi esplorativa dei dati: 190 tabelle a doppia entrata, 1 per ogni coppia di prodotti Esempio: ICECREAM (righe) e COKE (colonne) Frequency Row Pct Col Pct 0 1 Total 0 41179 4779 45958 88.13 10.23 98.35 89.60 10.40 98.57 96.56 1 599 170 769 1.28 0.36 1.65 77.89 22.11 1.43 3.44 Total 41778 4949 46727 Percent 89.41 10.59 100.00 Value 95% Confidence Limits Odds Ratio 2.4455 2.0571 2.9071
Misura di connessione per var. qualitative 1) Se θr >1 ASSOCIAZIONE POSITIVA 2) Se θr =1 NESSUNA ASSOCIAZIONE 3) Se θr <1 ASSOCIAZIONE NEGATIVA 0 ) 0 ( 0 ) 1 ( 1) 0 ( 1) 1 ( 0 1 = = = = = = = = = = X Y P X Y P X Y P X Y P R θ θ θ
Coppie di variabili maggiormente associate (positivamente) Prodotto 1 Prodotto 2 ODDS RATIO tin. meat tunny 5.0681 3.9101 6.5689 tin. meat mozzar 4.8847 2.9682 8.0386 froz veg froz fish 3.3610 2.9521 3.8265 coke beer 2.8121 2.6109 3.0289 brioches juices 2.8094 2.6094 3.0248 juices icecream 2.5333 2.1018 3.0534 coke icecream 2.4455 2.0571 2.9071 tomato j. pasta 2.3773 2.2446 2.5179
Prodotto 1 Prodotto2 Odds ratio crackers icecream 2.2839 1.7061 3.0574 brioches crackers 2.2833 2.0276 2.5713 tinmeat rice 2.1433 1.4762 3.1120 rice pasta 2.1129 1.9618 2.2756 brioches icecream 2.0211 1.7178 2.3781 crackers juices 2.0486 1.7633 2.3800 frozfish mozzar 2.0785 1.4721 2.9347 oil tomato j. 2.0713 1.8318 2.3420
Rappresentazione grafica
Modelli Statistici Associativi Modelli log-lineari Un modello log-lineare per i conteggi di una tabella di contingenza e` definito da : Log(µ)=Xβ; µ = E(Y) Ad esempio, per una tabella a doppia entrata, il modello completo è: Log µ jk =β 0 + β ja + β kb + β AB jk Il termine d interesse e` β jk AB, che descrive l associazione tra A e B. Ad esempio, in una tabella 2 X 2: Log (Odds ratio)=β 22 AB Si può mostrare che: Se β jk AB =0 jk A è indipendente da B
Modelli log-lineari grafici Sono particolari modelli loglineari descritti dalle cricche di un grafo G G è definito dalla coppia di insiemi (V,E) dove: V=(1,,k) è un insieme finito di vertici; E è un insieme di archi, ovvero un insieme di coppie ordinate di elementi in E C Considerati due vertici qualsiasi, i e j, diremo che: esiste un arco non orientato fra i e j se (i,j) E e (j,i) E (orientato se vale una sola inclusione) Ciò equivale ad una relazione di indipendenza (condizionata) fra le corrispondenti variabili. In altri termini, l odds ratio fra le due variabili è pari a 1.
Esempi A B A B C Il modello log-lineare grafico e`(abc) C Il modello log-lineare grafico e` (AC,BC) A INDIP B C A B A B C C (A,C) INDIP B Il modello log-lineare grafico e` (AC,B) A INDIP B INDIP C Il modello loglineare grafico è (A,B,C)
Risultati inferenziali L applicazione dei modelli loglineari grafici rende possibile una precisa valutazione quantitativa delle associazioni fra le varie pagine web I risultati possono differire da quelli esplorativi, basati sul calcolo di tutti gli odds ratios, a causa della variabilità campionaria
Risultati inferenziali
RISULTATI: gruppo surgelati+mozzarella Analisi inferenziale: test sui modelli (indipendenza piuttosto che connessione a due a due); diagnostiche. L unica associazione significativa è tra surgelati vegetali e surgelati di pesce.
RISULTATI: gruppo primi piatti e secondi in scatola Rispetto all analisi descrittiva, quella inferenziale mette in evidenza associazioni significative tra TONNO-PASTA e tra TONNO-RISO. L associazione RISO-CARNE IN GELATINA non viene confermata.
RISULTATI: gruppo pasti veloci Anche in questo caso viene confermata l associazione CARNE IN GELATINA-TONNO, mentre il prodotto MOZZARELLA risulta indipendente.
RISULTATI: gruppo merenda Dall analisi inferenziale risulta un grafo più semplificato (meno interazioni). Significativa l associazione BRIOCHES-CRACKERS, che sarà lo spunto per una brand research.
Regole Associative Si applicano a basi di dati transazionali. Ad es. per web clickstream analysis, market basket analysis. L obiettivo delle regole associative è individuare gruppi di eventi (itemsets) che accadono simultaneamente con alta frequenza, in una base di dati transazionale (Algoritmo a priori)
A 1,.., A p : p variabili aleatorie binarie. Itemset: è un espressione logica del tipo: A = (A j1 = 1,...,. A jk =1), k< p. Regola associativa: relazione logica fra due itemset: se A, allora B. Esempio: A=(Latte, Caffè) B=(Pane, Biscotti)
Misure di interesse delle regole ( A B) Support = ( ) ( ) Confidence A B = N N N A B N A B = Support A B / Support (A) A ( A ) ( A B) Lift B =Confidence / Support (B) Algoritmo a priori per la ricerca di regole: basato sul support.
Regole associative con maggior support
Regole associative con maggiore confidence
Regole associative con maggiore lift
Rappresentazione grafica