Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Documenti analoghi
Università di Pisa A.A

Regole associative con Weka

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

In molte applicazioni sorge il problema di sapere in quanti modi possibili si può presentare un certo fenomeno.

Distribuzioni campionarie. Antonello Maruotti

Parte V: Rilassamento Lagrangiano

Statistica descrittiva e statistica inferenziale

Modelli matematici e Data Mining

Progetto e analisi di algoritmi

Data Mining in SAP. Alessandro Ciaramella

( ) le colonne della matrice dei coefficienti, con. , risulta A 3 = A 1 + 4A 2 + 4A 5, A 4 = A 1 + A 2,

Esercizi sull Association Analysis

Figura 7: Ruota della Fortuna. Quanti sono i casi possibili? G. Sanfilippo - CdP - STAD - Lezione 2 del 12 Aprile pag. 15

3.4 Metodo di Branch and Bound

INSIEMI. DEF. Un INSIEME è una qualsiasi collezione di oggetti.

Matematica Discreta e Algebra Lineare (per Informatica)

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone

Insiemi Specifiche, rappresentazione e confronto tra realizzazioni alternative.

Esplorazione dei dati

Permutazioni. 1 Introduzione

01 - Elementi di Teoria degli Insiemi

01 - Elementi di Teoria degli Insiemi

Ψ PSICOMETRIA. Corso di laurea triennale (classe 34) STATISTICA INFERENZIALE

5.5 Metodi generali per la soluzione di problemi

Indice. 1 Cenni di logica. 2 Elementi di teoria degli insiemi. 3 Relazioni e funzioni. 4 Strutture algebriche

Laboratorio di Calcolo B 68

LA MATEMATICA DELLE RELAZIONI SOCIALI

ALGEBRA DEGLI EVENTI

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

Gestione del workflow

La Rappresentazione dell Informazione

Grafi (non orientati e connessi): minimo albero ricoprente

Distribuzione Gaussiana - Facciamo un riassunto -

SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n

Informatica per la Comunicazione/ Verdicchio/ 11/02/2015/ Domande / Matricola Cognome Nome Versione 1

Il calcolo del VAR operativo mediante la metodologia stocastica parametrica. Simona Cosma

Regole di Associazione: algoritmi

Programmazione Lineare Intera. Programmazione Lineare Intera p. 1/4

Manuale NoiPA. NoiPAssicura

C.L. Informatica, M-Z Bari, 12 Gennaio 2016 Traccia: 1

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a

LA METAFORA DELL UFFICIO

Appunti del corso di Informatica 1 (IN110 Fondamenti) 7 Grafi e alberi: introduzione

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Ricerca Operativa. G. Liuzzi. Lunedí 20 Aprile 2015

Variabili aleatorie. Variabili aleatorie e variabili statistiche

Pag Politecnico di Torino 1

Esercizi di Matematica per la prova di ammissione alla Scuola Galileiana /16

Tecniche di Ordinamento dei Vettori

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Teoria e tecniche dei test LA VALIDITA 10/12/2013. a) SIGNIFICATIVITA TEORICA E OSSERVATIVA DI UN COSTRUTTO. Lezione 6 seconda parte LA VALIDITA

Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite

Algebra di Boole. Tavole di verità. Fondamenti di Informatica Algebra di Boole. Si basa su tre operazioni logiche: AND (*) OR (+) NOT (!

Generazione di Numeri Casuali- Parte 2

BLOWFISH. Introduzione Algoritmo. Prestazioni Cryptanalysis of Vaundenay. Egizio Raffaele

Lezioni di ISTITUZIONI di MATEMATICA (gruppo 3)

Appunti su Indipendenza Lineare di Vettori

NUMERI CASUALI E SIMULAZIONE

Sommario. Tabelle ad indirizzamento diretto e hash Funzioni Hash

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Calcolo della probabilità

Giorno n. clienti di attesa

GRAFI. fig.1 - GRAFI (1) Si avvisa il lettore che certe definizioni che verranno date differiscono da quelle presenti in letteratura.

CURRICOLO DI MATEMATICA SCUOLA SECONDARIA DI PRIMO GRADO

Probabilità. Ing. Ivano Coccorullo

Teoria di Lebesgue. P n E = n=1

8. Completamento di uno spazio di misura.

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Algoritmi e Principi dell Informatica

Introduzione alla probabilità. Renato Mainetti

Corso di Geometria BIAR, BSIR Esercizi 2: soluzioni

Teoria dell informazione

2.3 Cammini ottimi. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1

Statistica per le ricerche di mercato

2.2 Alberi di supporto di costo ottimo

Alberi di Decisione. Fabio Aiolli Sito web del corso

Linguaggi formali e compilazione

Algebra di Boole. Fondamenti di Informatica per Meccanici Energetici - Biomedici 1. Politecnico di Torino Ottobre Mr. Boole. Variabile booleana

Un insieme si dice finito quando l operazione consistente nel contare i suoi elementi ha termine.

Matematica per le scienze sociali Elementi di base. Francesco Lagona

ISTITUTO TECNICO STATALE COMMERCIALE E PER GEOMETRI A. MARTINI Castelfranco Veneto (TV) Relazioni e Funzioni n n n n

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Aletti Cash Collect Certificate. Più occasioni per cogliere i frutti.

Le procedure di revisione

Fattorizzazione QR con pivoting per colonne

Richiami sugli insiemi numerici

Programmazione Lineare

Definizioni. Soluzione ottima: migliore soluzione possibile Soluzione ottima localmente: soluzione ottima in un dominio contiguo. Il paradigma greedy

ESERCIZI MATEMATICA GENERALE - Canale III

Tecniche di DM: Link analysis e Association discovery

Introduzione generale. Cenni storici. 1 Problema di de Mèrè e soluzione. martedì 27 febbraio 2007

Corso di Analisi Numerica

UNIVERSITÀ di ROMA TOR VERGATA

NOTE SULLE FUNZIONI CONVESSE DI UNA VARIABILE REALE

1 I numeri naturali. 1.1 Gli assiomi di Peano

Altrimenti, il M.C.D. di a e b è anche divisore di r (e.g. a=15,b=6,r=3 che è il M.C.D.)

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Esempio B2.1: dire il grado del monomio seguente rispetto ad ogni lettera e il suo grado complessivo:

(2) se A A, allora A c A; (3) se {A n } A, allora +

Transcript:

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Introduzione Le regole associative si collocano tra i metodi di apprendimento non supervisionato e sono volte all identificazione di regolarità e ricorrenze tra i dati. Sono semplici ed intuitive e trovano applicazione nelle analisi di transazioni commerciali (market basket analysis). Vedremo alcuni esempi, i principali indicatori di valutazione e alcuni metodi. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Market basket analysis Ogni volta che un cliente effettua degli acquisti in un punto vendita, l operazione viene registrata. Per ciascuna transazione vengono memorizzate la lista degli articoli acquistati, il prezzo, la data, L analisi di questi dati può produrre informazioni importanti per determinare regole ricorrenti che pongono in relazione l acquisto di uno o più prodotti con altri. Es. Un cliente che acquista cereali, acquista anche latte con probabilità.68. Da queste informazioni si possono progettare azioni promozionali o per posizionare gli articoli sugli scaffali. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Struttura e valutazione Date due proposizioni Y e Z, una regola è una implicazione del tipo Y Z. Y Z, significa che se Y è vera, allora anche Z èvera. Una regola si dice probabilistica se la validità di Z è associata ad una probabilità p: se Y è vera, allora anche Z è vera, con probabilità p. Talvolta le regole prodotte si limitano a rispecchiare circostanze evidenti, mentre talvolta capovolgono il legame causale di una relazione. Es. Gli acquirenti di una polizza assicurativa acquistano anche un autovettura con probabilità.98. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Dataset ID T i 2 3 4 5 6 7 8 9 Transazione { a (pane), c (cereali) } { a (pane), b (latte), d (caffè) } { b (latte), c (cereali) } { b (latte), d (caffè) } { a (pane), b (latte), c (cereali) } { b (latte), c (cereali) } { a (pane), c (cereali) } { a (pane), b (latte), e (the) } { a (pane), b (latte), c (cereali), e (the) } { a (pane), e (the) } Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Matrice degli item ID T i a b c d e 2 3 4 5 6 7 8 9 Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Regole associative La frequenza empirica f(l) di un insieme L di oggetti è il numero di transazioni che contengono L: f(l) = card{t i : L T i, i=,,m}. La confidenza di una regola è: f ( L H ) p = conf{ L H} = f ( L) L viene detto corpo della regola, H viene detto testa. Il supporto di una regola è: s = supp{ L H} = f ( L H ) m Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Esempio ID T i a b c d e 2 3 4 5 6 7 8 9 L={a, c} H={b} Frequenze empiriche: f(l)=4, f(h)=7, f(l H)=2 Confidenza di L H: f ( L H ) 2 p = conf { L H} = = =.5 f ( L) 4 Supporto di L H: f ( L H ) 2 s = supp { L H} = = =.2 m Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Generazione degli itemset frequenti Il supporto di una regola dipende solo dall insieme L H (itemset) e non dall effettiva distribuzione degli oggetti tra corpo e testa. Ad esempio, le sei regole che si possono generare per gli oggetti {a, b, c} hanno tutte supporto s = 2/ =.2: {a,b} {c}, {b,c} {a}, {b} {a,c}, {a,c} {b}, {a} {b,c}, {c} {a,b}. Se il valore di soglia per il supporto è s min =.25, le sei regole vanno eliminate, sulla base dell analisi dell insieme unione. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Generazione delle regole Dopo aver generato tutti gli itemset frequenti, vanno identificate le regole forti, vale a dire quelle regole che superano una soglia di confidenza fissata. Gli oggetti in ciascun itemset vanno separati secondo tutte le combinazioni di corpo e testa per verificare se la confidenza della regola supera una soglia p min. Se l itemset è, si possono quindi ricavare le regole, ma solo alcune saranno forti. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Lift di una regola Non sempre le regole forti sono significative e potenzialmente interessanti. Esempio. Su transazioni, di cui 6 includono fotocamere, 75 includono stampanti e 4 includono entrambi. Per s min =.3 e p min =.6, tra le regole forti viene selezionata anche {fotocamera} {stampante} che ha s=.4 e p=.66. La probabilità di acquistare una stampante è.75, maggiore della regola selezionata. Inoltre, se compro una fotocamera, probabilmente non comprerò una stampante Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Lift di una regola Per valutare la significatività di una regola si usa l indice di lift: l = lift{ L H} = conf ( L f ( H ) H ) = f ( L H ) f ( L) f ( H ) Valori di l > indicano che la regola è più efficace nel predire la probabilità che la testa sia contenuta in una generica transazione, di quanto lo sia la sua frequenza. Valori di l < indicano che la regola che nega la testa, è più efficace della regola iniziale. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Algoritmo Apriori Un dataset formato a partire da n oggetti può contenere fino a 2 n - itemset frequenti. Nelle applicazioni pratiche n è almeno nell ordine di alcune decine e un metodo di generazione esaustivo degli itemset è impraticabile. Il presupposto teorico su cui si basa l algoritmo Apriori consiste nella proprietà: Teorema. Se un insieme di oggetti (itemset) è, allora anche tutti i suoi sottoinsiemi sono frequenti. Se un itemset non è, allora neanche gli insiemi che lo contengono sono frequenti. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Generazione degli itemset frequenti L algoritmo Apriori affronta la fase di generazione degli itemset frequenti per approssimazioni successive, a partire dagli itemset con un solo elemento. Il numero delle iterazioni è k max +, dove k max indica la cardinalità massima di un itemset. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Algoritmo Apriori. Si calcola la frequenza relativa di ciascun oggetto e si scartano quelli con frequenza minore della soglia di supporto s min. Si pone k = 2. 2. Si generano gli itemset di ordine k a partire da quelli di ordine k -. 3. Si calcola il supporto di ciascun itemset e si scartano quelli con supporto inferiore ad s min. 4. L algoritmo si arresta se non è stato generato alcun k-itemset, altrimenti si pone k = k + e si procede al passo 2. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Esempio algoritmo Apriori (/3). s min =.2 Itemset a b c d e Frequenza relativa 7/ =.7 7/ =.7 5/ =.5 3/ =.3 3/ =.3 Stato k = 2. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Esempio algoritmo Apriori (2/3) Itemset {a, b} {a, c} {a, d} {a, e} {b, c} {b, d} {b, e} {c, d} {c, e} {d,e} Frequenza relativa 4/ =.4 4/ =.4 / =. 3/ =.3 3/ =.3 3/ =.3 2/ =.2 / =. Stato non non non non Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Esempio algoritmo Apriori (3/3) Itemset {a, b, c} {a, b, e} Frequenza relativa 2/ =.2 2/ =.2 Stato Il numero di operazioni richieste dall algoritmo cresce esponenzialmente con il numero degli oggetti n. Per oggetti: h= h = 2 3 Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Generazione delle regole forti. Si effettua una scansione della lista degli itemset frequenti generati nella prima fase. Se la lista è vuota si arresta, altrimenti sia B il successivo itemset, che viene tolto dalla lista. 2. Si suddivide l itemset B in L e H = B - L in tutte le combinazioni possibili. 3. Per ciascuna regola candidata L H si calcola la confidenza: f ( B) p = conf{ L H} = f ( L) 4. Se p p min la regola viene inserita nella lista delle regole forti, altrimenti viene eliminata. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Esempio di generazione di regole forti Itemset Regola Frequenza relativa Stato {a, b} {a b} p = 4/7 =.57 {a, b} {b a} p = 4/7 =.57 {a, c} {a c} p = 4/7 =.57 {a, c} {c a} p = 4/5 =.8 {a, e} {a e} p = 3/7 =.43 non {a, e} {e a} p = 3/3 =. {b, c} {b c} p = 3/7 =.43 non {b, c} {c b} p = 3/5 =.6 {b, d} {b d} p = 3/7 =.43 non {b, d} {d b} p = 3/3 =. {b, e} {b e} p = 2/7 =.29 non {b, e} {e b} p = 2/3 =.67 {a, b, c} {a, b c} p = 2/4 =.5 non Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27 {a, b, c} {c a, b} p = 2/5 =.4 non

Esempio di generazione di regole forti Itemset Regola Frequenza relativa Stato {a, b, c} {a, c b} p = 2/4 =.5 non {a, b, c} {b a, c} p = 2/7 =.29 non {a, b, c} {b, c a} p = 2/3 =.67 {a, b, c} {a b, c} p = 2/7 =.29 non {a, b, e} {a, b e} p = 2/4 =.5 non {a, b, e} {e a, b} p = 2/3 =.67 {a, b, e} {a, e b} p = 2/3 =.67 {a, b, e} {b a, e} p = 2/7 =.29 non {a, b, e} {b, e a} p = 2/2 =. {a, b, e} {a b, e} p = 2/7 =.29 non Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Miglioramenti Strutture di rappresentazione dei dati quali dizionari ed alberi binari. Partizioni delle transazioni in sottoinsiemi disgiunti mediante teoria dei grafi o clustering. Estrazioni di campioni significativi casuali. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27

Esercizi Determinare le regole forti per il dataset Ferramenta.xls e discutere i risultati. Determinare il lift di ciascuna regola. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27