Data Mining in SAP. Alessandro Ciaramella

Transcript

1 UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella

2 La Business Intelligence Profitto Conoscenza Informazione Dati 2 Processi Tecnologie Strumenti

3 I Passi della Business Intelligence 3 Fonte: Norbert Egger & al., Business Intelligence, SAP PRESS (2007)

4 Il Data Mining 4 Un processo iterativo Per scoprire regolarità e relazioni In grandi quantità di dati Per un risultato chiaro, utile e riusabile

5 Un processo iterativo Processo Standardizzato dal CRISP-DM 5

6 Il Modulo SAP APD Permette di sviluppare processi di analisi di Data Mining Fonte: sap.com 6

7 Il Processo di Data Mining in SAP 7

8 1st Step: Selection of Data 8 I dati possono essere prelevati da una grande quantità di sorgenti:

9 2nd step: Preparation 9 Permette di manipolare i dati per renderli adatti alle analisi dei metodi di data mining

10 3td Step: Transformation 10 Rappresentano metodi potenti di analisi dei dati:

11 4th Step: Saving / Trasferring 11 I dati possono essere salvati in diverse strutture: Oppure possono essere utilizzati per addestrare i modelli di data mining o generare le Regole di Associazione

12 I Metodi di Data Mining 12 Decision Tree Cluster Analysis Regression Analysis Association Rules

13 Decision Tree A A=w A=x B 13 B B B<θ Class 1 A=z A=y B θ Class 2 Class 3

14 Generare un Albero di Decisione test test test......

15 Algoritmo CLS Proposto da Hunt (1966) Base della maggior parte degli algoritmi Sia T il training set non vuoto e {C, C,, C } le classi a cui appartengono le unità Tutte le unità appartengono alla stessa classe 2.L'insieme T è vuoto 3.L'insieme T contiene unità di classi diverse Selezione della variabile per test Partizione di T in sottoinsiemi T e ricorsione i 15 k

16 Il Problema dell Overfitting 16 L obiettivo è riuscire a classificare in modo corretto anche dati non appartenenti al training set. In modo intuitivo è facile capire che alberi più semplici riescono a generalizzare meglio di alberi complessi, con tanti test sulle variabili di ingresso.

17 Algoritmi ID3 e C Proposti da Quinlan (1986 e 1993) Il C4.5 estende gli alberi ai domini quantitativi Basati sull algoritmo CLS Tecnica di sampling del training set Selezione della variabile guidata dall'information Gain

18 L'Information Gain L'information Gain di una variabile A rispetto a una variabile X è un indicatore di quanto la conoscenza di A può influire sulla conoscenza di X: IG(X,A) = H(X) H(X A) Dove H() rappresenta l'entropia informatica, una misura dell'incertezza legata a una variabile statistica (Shannon, 1948) 18

19 Pruning La potatura è guidata da una misura del tasso di errore dell albero nel classificare campioni non precedentemente visti. 19 prepruning: si decide di fermarsi a un certo nodo, anche se l insieme dei campioni non appartiene tutto a un unica classe postpruning: la potatura è effettuata sull albero completamente generato, agendo retrospettivamente sulla sua struttura

20 Decision Tree in SAP 20

21 L'Algoritmo in SAP 21 Utilizza una variante dell algoritmo C4.5

22 I Risultati della Classificazione 22

23 Applicazione 23 Problema: Predire quando l income di una persona supera una certa soglia in base ai dati relativi al censo. Decision Tree: 86,17% successo in test set

24 Cluster Analysis 24 Segmenta un insieme di oggetti in gruppi tali che: Oggetti molto simili tra loro appartengano allo stesso gruppo Oggetti di gruppi diversi siano molto diversi tra loro

25 Il Processo di Clustering Fonte: Halkidi (2001) 25

26 Cluster Analysis in SAP 26 Utilizza una variante del k-means Estende il dominio alle variabili qualitative

27 Le Dimensioni dello Spazio 27 Ciascun attributo rappresenta una o più dimensioni nello spazio di ricerca Alle variabili quantitative e qualitative ordinate viene assegnata una dimensione Alle variabili qualitative non ordinate viene assegnata una dimensione per ogni modalità che possono assumere (binarizzazione)

28 Algoritmo di Clustering: passo 1 Calcolo dei Centroidi Iniziali 28 Attraverso un campionamento casuale, l insieme dei dati iniziali viene diviso in k parti; Per ciascuna parte, su alcuni dei campioni rappresentati come vettori viene calcolata la media aritmetica che rappresenterà le coordinate del punto centroide.

29 Algoritmo di Clustering: passo 2 Attribuzione degli Oggetti ai Cluster 29 Ogni campione viene assegnato al cluster il cui centroide ha la distanza euclidea minima dal campione stesso.

30 Algoritmo di Clustering: passo 3 Nuovo Calcolo dei Centroidi 30 I centroidi vengono calcolati in base alle appartenenze stabilite nel passo precedente. In particolare, alcuni campioni vengono selezionati a caso e la loro media rappresenterà le coordinate del nuovo punto centroide.

31 Algoritmo di Clustering: passo 4 Condizioni di Stop 31 L algoritmo torna al passo due (attribuzione degli oggetti ai cluster) finchè le condizioni di stop non vengono soddisfatte.

32 Configurazione dei Parametri 32

33 La Validazione dei Risultati 33 Ottenuta una partizione dei dati, è importante controllare che questa non sia stata prodotta artificialmente dall algoritmo ma corrisponda alla struttura effettiva dei dati. Una buona partizione ha cluster ben separati tra loro e compatti al loro interno.

34 L'Indice Xie-Beni Al numeratore: compattezza Al denominatore: separazione Piccoli valori di Xie-Beni buone partizioni 34

35 La Validazione in SAP 35 Non è presente alcun indicatore sintetico della bontà dei risultati ottenuti Possiamo utilizzare alcune informazioni di riepilogo fornite dal sistema per ottenere un approssimazione dell indice di Xie-Beni

36 La Compattezza 36 Attraverso l Intra Cluster Distance Graph si può risalire alla distanza media tra gli elementi appartenenti a un cluster e il suo centroide.

37 La Separazione 37 Visualizzando il modello secondo la sintassi PMML è possibile accedere alle coordinate di ogni cluster

38 Applicazione 1/2 Problema: classificare un insieme di individui in gruppi omogenei, attraverso l analisi delle caratteristiche del loro censo Guidati dall indice Xie-Beni, abbiamo trovato la migliore partizione in tre gruppi 38 Variabili utilizzate: sex, income, relationship, education, age

39 Applicazione 2/2 39 Problema: predire la classe di appartenenza di una pianta di iris, raggruppando i campioni in base ai loro dati biologici Cluster Analysis: si ottiene una corretta classificazione nel 96% dei casi

40 Regression Analysis y = f(x, θ) + ε 40 Stima i parametri dell equazione che lega le variabili predittrici con la variabile risposta La variabile da predire è di tipo continuo e non un identificatore di classe

41 La Regressione Lineare y=α+β x+ε La risposta è funzione lineare dei parametri Errore: Metodo dei minimi quadrati 41

42 Regressione Non Lineare Equazione della regressione non lineare: y = f(x, θ) + ε 42 Per stimare i parametri non c è un metodo generale, ma sono necessari algoritmi specifici di ricerca operativa

43 Alcune Definizioni 43 Da cui SST = SSR + SSE Coefficiente di Determinazione:

44 Regression Analysis in SAP 44 Effettua regressioni sia di tipo lineare sia di tipo non lineare Accetta predittori qualitativi, generando un equazione per ogni combinazione dei loro valori

45 Regressione Lineare in SAP 45 Per stimare i parametri dell equazione di regressione utilizza il metodo dei minimi quadrati

46 Regressione non Lineare in SAP Attraverso spline di ordine uno y x 46

47 Linearizzazione Locale 47 Per ogni variabile predittrice quantitativa è necessario stabilire un intervallo di linearizzazione in modo automatico o manuale (specificando le soglie):

48 I Risultati del Modello 48 Il sistema fornisce come indicatore di bontà la radice quadrata del coefficiente di determinazione: Pericolo di sovrastimare la capacità di analisi raggiunta

49 Applicazione 49 Problema: predire il numero di anelli della conchiglia di un mollusco note alcune sue misure fisiche Regression Analysis: 45,40% di successo con margine di errore ± 1 unità.

50 Association Rules Scoprono relazioni nascoste tra gli attributi (local pattern) La conoscenza indotta è mantenuta sotto forma di regole del tipo: Se {Antecedente} allora {Conseguente} 50

51 Market Basket Analysis Rappresenta l applicazione più nota delle Regole di Associazione Ogni acquisto rappresenta una transazione e coinvolge un certo insieme di articoli Se A e B sono due insiemi di articoli disgiunti, una regola di associazione prende la forma: A B 51

52 Il Supporto Il Supporto di una regola di associazione A B è la proporzione di transazioni che contengono sia A e B: (numero delle transazioni contenenti sia A e B) (numero totale delle transazioni) 52

53 La Confidenza La Confidenza di una regola di associazione A B è una misura della sua accuratezza ed è determinata dalla percentuale di transazioni che contengono A e che inoltre contengono B: (num. delle trans. contenenti sia A e B) (num. delle trans. contenenti A) 53

54 Altre Definizioni 54 Regole forti: regole che hanno supporto e confidenza maggiori di soglie prestabilite Itemset: un insieme di articoli K-itemset: un itemset contenente k articoli Large Itemset: un itemset che si presenta almeno un certo numero di volte

55 Algoritmo Apriori Proposto da Agrawal (1993) 1. Trova i large itemset 2. Per ciascun large itemset, genera tutte le regole ottenute dalla combinazione dei suoi articoli 3. Seleziona le regole che superano una certa soglia di confidenza prestabilita 55

56 I Large Itemset Trovare i large itemset in modo diretto non è computazionalmente possibile Si usa la downward closure property: 56 Se un itemset X non è un large itemset, aggiungere un ulteriore articolo A a tale itemset non renderà X U A un large itemset Per ottenere i large itemset, è sufficiente cercare soltanto tra le combinazioni di large itemset di ordine inferiore, partendo dagli 1-itemset più frequenti.

57 L incremento (Lift) 1/2 Se un articolo è presente nel database con una frequenza alta, la confidenza delle regole in cui appare come conseguente risulta distorta. Per valutare la bontà di una regola si introduce l incremento: (confidenza della regola) (probabilità del conseguente) 57

58 L incremento (Lift) 2/2 Confronta la confidenza della regola con la probabilità del conseguente 58 Lift >> 1: effettiva correlazione Lift 1: la presenza del conseguente non è associabile alla presenza dell antecedente

59 Association Rules in SAP 59 Utilizza una variante dell'algoritmo Apriori

60 Il Transaction Weight È possibile specificare il peso assunto da ciascun articolo all interno della transazione In questo caso il supporto di un itemset è calcolato come: (peso totale delle transazioni contenenti l itemset) (peso totale delle transazioni) 60

61 Le Regole Generate 61

62 Applicazione Problema: predire la pagina web che sarà visitata durante l accesso a un sito, nota la pagina già visitata. Association Rules: Si ottengono regole con confidenza anche maggiore del 90% 62 Esempio: /WINDOWS95 /WINDOWS

63 Grazie. 63