Regole associative. Prof. Paolo Giudici



Похожие документы
Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a

Mining Positive and Negative Association Rules:

La categoria «ES» presenta (di solito) gli stessi comandi

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

ROI, WACC e EVA: strumenti di pianificazione economico finanziaria Di : Pietro Bottani Dottore Commercialista in Prato

Ricerca Operativa e Logistica

PROGETTO REGIONALE MISURAZIONE E VALUTAZIONE DELLE BIBLIOTECHE VENETE

Economia e Finanza delle Assicurazioni Università di Macerata Facoltà di. Economia. I flussi monetari generati dalle gestioni assicurative

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Appendice III. Competenza e definizione della competenza

Case history gestione del CRM il caso di un azienda di trasporti

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Alcuni Preliminari. Prodotto Cartesiano

Progetto di Reti di Telecomunicazione Modelli in Programmazione Lineare Problemi di flusso

Informatica. Rappresentazione dei numeri Numerazione binaria

Università di Milano Bicocca. Esercitazione 6 di Matematica per la Finanza. 14 Maggio 2015

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Monitoraggio sulla conversione dei prezzi al consumo dalla Lira all Euro

11. Analisi statistica degli eventi idrologici estremi

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Il foglio elettronico. Excel PARTE

Sintesi di Reti Sequenziali Sincrone

Capitolo 2 Distribuzioni di frequenza

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione

STATISTICA IX lezione

Modelli descrittivi, statistica e simulazione

GESTIONE INDUSTRIALE DELLA QUALITÀ A

4. Confronto tra medie di tre o più campioni indipendenti

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

La statistica multivariata

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Capitolo 11 Test chi-quadro

La distribuzione Normale. La distribuzione Normale

PROGRESS: UN CODICE PER IL CALCOLO DELLE EMISSIONI DA VEICOLI STRADALI IN AMBITO URBANO

Calcolatori: Algebra Booleana e Reti Logiche

Economia e Gestione delle Imprese I A.A

Pre Test Matematica

Il confronto fra proporzioni

Lezione 8. La macchina universale

Traduzione di bilanci redatti in valute extra-uem

Prova di autovalutazione Prof. Roberta Siciliano


Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Capitolo 12 La regressione lineare semplice

Problema del trasporto

E naturale chiedersi alcune cose sulla media campionaria x n

READY-TO-GO PRODUZIONE

Matematica e Statistica

Rischi finanziari di tesoreria, curve dei tassi ed aspettative

Capitolo 4 Probabilità

Corso di. Dott.ssa Donatella Cocca

Regressione Logistica: un Modello per Variabili Risposta Categoriali

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi: lezione 24/11/2015

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Ottimizzazione Multi Obiettivo

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Gestire le NC, le Azioni Correttive e Preventive, il Miglioramento

Tecniche di DM: Link analysis e Association discovery

COMPLEMENTI SULLE LEGGI FINANZIARIE

Assessment Center: tecniche di valutazione del potenziale

Macroeconomia, Esercitazione 2. 1 Esercizi. 1.1 Moneta/ Moneta/ Moneta/3. A cura di Giuseppe Gori (giuseppe.gori@unibo.

L analisi dei costi: il costing

Offerta al pubblico di UNIVALORE PLUS prodotto finanziario-assicurativo di tipo unit linked (Codice Prodotto UL12UD)

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

i criteri di valutazione

Basi di Dati Relazionali

STUDIO DI SETTORE UM15A ATTIVITÀ ATTIVITÀ COMMERCIO AL DETTAGLIO DI OROLOGI, ARTICOLI DI GIOIELLERIA E ARGENTERIA

BONUS Certificates ABN AMRO.

Teoria e metodologia estimativa

Progetto Pilota Valutazione della scuola italiana. Anno Scolastico PROVA DI MATEMATICA. Scuola Secondaria Superiore.

Grafici delle distribuzioni di frequenza

Calcolo del Valore Attuale Netto (VAN)

Capitolo 5. Funzioni. Grafici.

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

Gestione ed analisi di base dati nell epidemiologia. delle malattie infettive

Strumenti operativi. Elaborazione del fabbisogno informativo

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari.

UN MODULO SOFTWARE PER LA ANALISI E PIANIFICAZIONE DELLA STAMPA ( AUDIPRESS)

Dispensa di database Access

Comparatori. Comparatori di uguaglianza

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

INTRODUZIONE AL RISK MANAGEMENT. Copyright CER.TO. S.r.l. 1

LA PARTECIPAZIONE ALLE ATTIVITA DI FORMAZIONE IN MATERIA DI SAFETY IN BANCA D ITALIA

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

1. Limite finito di una funzione in un punto

ISC. L indicatore sintetico di costo del conto corrente

CONVEGNO BNL / ODCEC TORINO. Problematiche inerenti l utilizzo di prodotti a copertura dei rischi

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

COME E CAMBIATA LA SPESA DELLE FAMIGLIE

EA 03 Prospetto economico degli oneri complessivi 1

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

HEALTH SEARCH: INTERVENTI

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Транскрипт:

Regole associative Prof. Paolo Giudici

Market basket analysis La Market Basket Analysis considera i comportamenti di acquisto dei consumatori, tipicamente in un negozio (es. supermercato) I dati consistono di tutte le transazioni di acquisto in un certo intervallo temporale (ad es. dai possessori di carta fedeltà). Lo scopo dell analisi è comprendere la strutttura associativa nei comportamenti di acquisto, per intraprendere azioni di marketing.

I dati a disposizione Database fornito da AC Nielsen Italia (aggiornato rispetto a Cap 13) Parte di un database riguardante 37 negozi di una catena di supermercati. Le transazioni registrate sono quelle effettuate dai titolari di carta fedeltà. Il periodo consta di 75 giorni, dal 2 gennaio al 21 aprile, 2001. Abbiamo scelto 1 negozio rappresentativo, con un area di ca.12000 mq. Numero di visite medio nel periodo: 7.85. Numero di carte fedeltà: 7301. Spesa media: 28.27 Euro. Numero totale di prodotti: circa 5000, Indipendentemente dalla marca, formato e tipo specifico. Abbiamo raggruppato i prodotti in categorie merceologiche (493) e scelte le 20 più frequentemente acquistate.

Categorie di prodotti considerati, loro frequenza

Organizzazione dei dati in forma transazionale Numero totale delle transazioni = 46727

Organizzazione dei dati in forma standard E una matrice dei dati tradizionale, per titolari di carta (righe); categorie di prodotti (colonne)

Analisi esplorativa dei dati: 190 tabelle a doppia entrata, 1 per ogni coppia di prodotti Esempio: ICECREAM (righe) e COKE (colonne) Frequency Row Pct Col Pct 0 1 Total 0 41179 4779 45958 88.13 10.23 98.35 89.60 10.40 98.57 96.56 1 599 170 769 1.28 0.36 1.65 77.89 22.11 1.43 3.44 Total 41778 4949 46727 Percent 89.41 10.59 100.00 Value 95% Confidence Limits Odds Ratio 2.4455 2.0571 2.9071

Misura di connessione per var. qualitative 1) Se θr >1 ASSOCIAZIONE POSITIVA 2) Se θr =1 NESSUNA ASSOCIAZIONE 3) Se θr <1 ASSOCIAZIONE NEGATIVA 0 ) 0 ( 0 ) 1 ( 1) 0 ( 1) 1 ( 0 1 = = = = = = = = = = X Y P X Y P X Y P X Y P R θ θ θ

Coppie di variabili maggiormente associate (positivamente) Prodotto 1 Prodotto 2 ODDS RATIO tin. meat tunny 5.0681 3.9101 6.5689 tin. meat mozzar 4.8847 2.9682 8.0386 froz veg froz fish 3.3610 2.9521 3.8265 coke beer 2.8121 2.6109 3.0289 brioches juices 2.8094 2.6094 3.0248 juices icecream 2.5333 2.1018 3.0534 coke icecream 2.4455 2.0571 2.9071 tomato j. pasta 2.3773 2.2446 2.5179

Prodotto 1 Prodotto2 Odds ratio crackers icecream 2.2839 1.7061 3.0574 brioches crackers 2.2833 2.0276 2.5713 tinmeat rice 2.1433 1.4762 3.1120 rice pasta 2.1129 1.9618 2.2756 brioches icecream 2.0211 1.7178 2.3781 crackers juices 2.0486 1.7633 2.3800 frozfish mozzar 2.0785 1.4721 2.9347 oil tomato j. 2.0713 1.8318 2.3420

Rappresentazione grafica

Modelli Statistici Associativi Modelli log-lineari Un modello log-lineare per i conteggi di una tabella di contingenza e` definito da : Log(µ)=Xβ; µ = E(Y) Ad esempio, per una tabella a doppia entrata, il modello completo è: Log µ jk =β 0 + β ja + β kb + β AB jk Il termine d interesse e` β jk AB, che descrive l associazione tra A e B. Ad esempio, in una tabella 2 X 2: Log (Odds ratio)=β 22 AB Si può mostrare che: Se β jk AB =0 jk A è indipendente da B

Modelli log-lineari grafici Sono particolari modelli loglineari descritti dalle cricche di un grafo G G è definito dalla coppia di insiemi (V,E) dove: V=(1,,k) è un insieme finito di vertici; E è un insieme di archi, ovvero un insieme di coppie ordinate di elementi in E C Considerati due vertici qualsiasi, i e j, diremo che: esiste un arco non orientato fra i e j se (i,j) E e (j,i) E (orientato se vale una sola inclusione) Ciò equivale ad una relazione di indipendenza (condizionata) fra le corrispondenti variabili. In altri termini, l odds ratio fra le due variabili è pari a 1.

Esempi A B A B C Il modello log-lineare grafico e`(abc) C Il modello log-lineare grafico e` (AC,BC) A INDIP B C A B A B C C (A,C) INDIP B Il modello log-lineare grafico e` (AC,B) A INDIP B INDIP C Il modello loglineare grafico è (A,B,C)

Risultati inferenziali L applicazione dei modelli loglineari grafici rende possibile una precisa valutazione quantitativa delle associazioni fra le varie pagine web I risultati possono differire da quelli esplorativi, basati sul calcolo di tutti gli odds ratios, a causa della variabilità campionaria

Risultati inferenziali

RISULTATI: gruppo surgelati+mozzarella Analisi inferenziale: test sui modelli (indipendenza piuttosto che connessione a due a due); diagnostiche. L unica associazione significativa è tra surgelati vegetali e surgelati di pesce.

RISULTATI: gruppo primi piatti e secondi in scatola Rispetto all analisi descrittiva, quella inferenziale mette in evidenza associazioni significative tra TONNO-PASTA e tra TONNO-RISO. L associazione RISO-CARNE IN GELATINA non viene confermata.

RISULTATI: gruppo pasti veloci Anche in questo caso viene confermata l associazione CARNE IN GELATINA-TONNO, mentre il prodotto MOZZARELLA risulta indipendente.

RISULTATI: gruppo merenda Dall analisi inferenziale risulta un grafo più semplificato (meno interazioni). Significativa l associazione BRIOCHES-CRACKERS, che sarà lo spunto per una brand research.

Regole Associative Si applicano a basi di dati transazionali. Ad es. per web clickstream analysis, market basket analysis. L obiettivo delle regole associative è individuare gruppi di eventi (itemsets) che accadono simultaneamente con alta frequenza, in una base di dati transazionale (Algoritmo a priori)

A 1,.., A p : p variabili aleatorie binarie. Itemset: è un espressione logica del tipo: A = (A j1 = 1,...,. A jk =1), k< p. Regola associativa: relazione logica fra due itemset: se A, allora B. Esempio: A=(Latte, Caffè) B=(Pane, Biscotti)

Misure di interesse delle regole ( A B) Support = ( ) ( ) Confidence A B = N N N A B N A B = Support A B / Support (A) A ( A ) ( A B) Lift B =Confidence / Support (B) Algoritmo a priori per la ricerca di regole: basato sul support.

Regole associative con maggior support

Regole associative con maggiore confidence

Regole associative con maggiore lift

Rappresentazione grafica