Ingegneria della Conoscenza e Sistemi Esperti Lezione 2: Apprendimento non supervisionato

Transcript

1 Ingegneria della Conoscenza e Sistemi Esperti Lezione 2: Apprendimento non supervisionato Dipartimento di Elettronica e Informazione Politecnico di Milano Apprendimento non supervisionato Dati un insieme di esempi si vuole individuare qualcosa di interessante. L esperienza (E) è data da esempi raccolti Il problema (P) è individuare qualcosa di interessante Senza nessuna informazione a parte i dati stessi La performance (P) dipende da quanto è interessante il risultato 1

2 Esempio Esempio 2

3 Esempio Apprendimento non supervisionato Cosa si può fare non sapendo nulla degli esempi? Contare... Regole di Associazione Cercando ricorrenze. Raggruppare Algoritmi di Clustering cercando analogie. 3

4 Come sono fatti gli esempi? Gli esempi sono rappresentati con una tabella. Ogni riga rappresenta un esempio. Ogni colonna individua un attributo dell esempio. duration dental 1 5??? 40?? 2? 11 'average'?? 'yes'? 'good' ?? 35 'ret_allw'?? 'yes' 11 'below_average'? 'full'? 'full' 'good'????? 38 'empl_contr'? 5? 11 'generous' 'yes' 'half' 'yes' 'half' 'good' 'tc'???? 'yes'???? 'yes'? 'good' ? 40???? 12 'average'? 'half' 'yes' 'half' 'good' Attributi Attributi descritti con simboli a cui è possibile associare automaticamente un significato. Attributi descritti con numeri (l attributo importo ) in cui il significato è il numero stesso. 4

5 Attributi Att. titolo Val. Il Maestro e Margherita Att. Importo Val Att. Cod. Fiscale Val. LNZPLC61A27R348L Att. Data di Nascita Val. 27/12/70 Att. Codice Cliente Val Attributi Attributi Numerici I valori sono numeri la cui interpretazione per il problema è il numero stesso. Att. Importo ; Val Controesempio, att. codice cliene ; val Attributi Nominali I valori sono stringhe di caratteri per cui non esiste un ordinamento che abbia un significato per il problema. Att. Colore ; Val. giallo, verde, blu. Attributi Ordinali I valori sono stringhe di caratteri che possono essere ordinate e per cui tale ordinamento ha un significato effettivo. Att. Rischio ; Val. basso, medio, alto. 5

6 Attributi Numerici e Nominali Attributi Numerici Tutte le tecniche statistiche possono essere applicate a questo tipo di dati. Sono facili da visualizzare. Attributi Nominali Solo poche tecniche statistiche si possono applicare. La Media? La Varianza? Sono difficili da visualizzare. Attributi Ordinali Valgono le stesse considerazioni dei nominali. Sono più facili da visualizzare. Falsa Credenza sugli Attributi Nominali È sempre possibile trasformare gli attributi nominali in attributi numerici Consideriamo i seguenti esempi. Colore Importo Giallo Blu Verde

7 Falsa Credenza sugli Attributi Nominali Supponiamo di associare 1 al giallo, 2 al blu, e 3 al verde Visualizziamo gli esempi: Giallo Blu Verde Falsa Credenza sugli Attributi Nominali Cambiamo l associazione in 3 al giallo, 1 al blu, e 2 al verde. Il grafico diventa: Blu Verde Giallo 7

8 Dove è l Errore? Se modifichiamo arbitrariamente un attributo Possiamo ottenere risultati che hanno una valenza arbitraria! Definizione Cos è il clustering? Il processo di raggruppamento di un insieme di oggetti fisici o astratti in classi di oggetti simili (Han 2001). Un cluster è una collezione di oggetti simili tra loro che sono dissimili rispetto agli oggetti degli altri cluster. 8

9 A cosa si applica? In biologia può essere utilizzato per derivare tassonomie di animali e piante. Nel marketing può essere impiegato per derivare e caratterizzare gruppi di consumatori....per derivare aree geografiche simili. Nell analisi dei dati viene impiegato per studiare come i dati si distribuiscono nello spazio. Distance based clustering Clustering Un gruppo di oggetti appartengono allo stesso cluster se sono vicini rispetto ad una determinata distanza. Conceptual Clustering Gli oggetti appartengono ad un cluster se questo definisce un concetto comune ai diversi oggetti. 9

10 Requisiti Scalabilità Possibilità di trattare molteplici tipi di attributi Minimo numero possibile di parametri Possibilità di trattare dati affetti da rumore Indipendenza dall ordine degli esempi Possibilità di trattare esempi con molti attributi Clustering Cerchiamo raggruppamenti interessanti nei dati Alla base c è l ipotesi che si possa definire una distanza La distanza deve essere significativa per il dominio L ipotesi implicita è: più i dati sono vicini, più sono simili 10

11 Esempio (1) Esempio (2) 11

12 Quali sono i problemi tipici? L efficacia dipende dalla definizione di distanza Se non esiste una misura di distanza ovvia, bisogna inventarla La bontà del risultato dipende completamente dalla della misura. L interpretazione del risultato dipende dalla distanza. I risultati in molti casi possono essere arbitrari come pure la loro interpretazione! Algoritmi di Clustering Partition-based clustering Dato k, partiziona gli esempi in k cluster di almeno un elemento; ogni esempio può appartenere solo ad un elemento. Hierarchical clustering Scompone l insieme degli esempi in una gerarchia di partizioni di diversa complessità. Density-based clustering Gli esempi vengono suddivisi in cluster via via sempre più numerosi fino a quando la densità di ogni cluster rimane accettabile. Grid-based e Model-based clustering 12

13 k-means E il metodo di partion-based clustering più noto Dato un numero k e un insieme di n esempi Il k-means partiziona gli n esempi in k cluster tali che: la similarità fra esempi appartenenti allo stesso cluster sia alta la similarità fra oggetti appartenenti a cluster diversi sia bassa Come funziona? INPUT k e gli n esempi OUTPUT k cluster che minimizzano l errore quadratico Dato k e n esempi Seleziona k esempi tra n come centroidi iniziali Repeat assegna ogni esempio al cluster corrispondente al centroide a cui l esempio e più vicino. calcola il valore medio degli elementi del cluster ovvero calcola i nuovi centroidi. Until criterio soddisfatto 13

14 k-means Come criterio di stop viene solitamente utilizzato l errore quadratico: Dove m i rappresenta il centroide del cluster C i Clustering Gerarchico I cluster non vengono creati in un unico passo. Si inizia con una partizione dello spazio dei dati in cui: ogni elemento è un potenziale cluster; oppure tutti gli elementi formano un unico cluster. A partire da questa rappresentazione iniziale è possibile creare agglomerati dai singoli cluster per formare via via cluster più grandi dividere i cluster più grandi per formare cluster via via più piccoli 14

15 Clustering Gerarchico Supponiamo di avere cinque elementi di cui vogliamo trovare gli agglomerati interessanti. Primo Passo: Calcolo della Matrice delle distanze D = D ij è la distanza fra l elemento i e l elemento j Clustering Gerarchico Secondo Passo Si trovano i due elementi più vicini e si raggruppano in un singolo cluster. In questo caso i primi due elementi sono più vicini. Terzo Passo: ricalcolo della matrice delle distanze. Qual è la distanza fra due cluster? 15

16 Qual è la distanza fra due cluster? Single Linkage Clustering d (12)3 = min[d 13,d 23 ] = d 23 = 5.0 d (12)4 = min[d 14,d 24 ] = d 24 = 9.0 d (12)5 = min[d 15,d 25 ] = d 25 =

17 La nuova matrice D 2 è: Clustering Gerarchico D = Il processo continua fino a trovare un solo cluster. Clustering Gerarchico Per visualizzare il risulato di un operazione di clustering gerarchico usiamo un dendrogramma. 17

18 Complete Linkage Clustering d (12)3 = max[d 13,d 23 ] = d 23 = 6.0 d (12)4 = max[d 14,d 24 ] = d 24 = 10.0 d (12)5 = max[d 15,d 25 ] = d 25 = 9.0 Complete Linkage Clustering 18

19 Average Linkage Clustering d AB = (d 13 + d 14 + d 15 + d 23 + d 24 + d 25 )/6 Clustering Gerarchico 19

20 Primo passo Conceptual Clustering Viene applicato il clustering individuando una partizione degli esempi. Secondo passo I cluster vengono caratterizzati allo scopo di trovare una descrizione sintetica del concetto che rappresentano. Scopo Regole di Associazione Trovare Associazioni interessanti e relazioni di correlazione in grandi insiemi di transazioni Dominio applicativo Grandi collezioni di dati che possono essere raccolti con grande facilità in cui esista un concetto di transazione Ad esempio, scontrini di supermercato, log di trasmissioni di cellulari 20

21 Regole di Associazione computer software_finanziario con confidenza 0.6 supporto 0.02 Afferma che: computer e software_finanziario sono acquistati dal 2% dei clienti Il 60% dei clienti che acquistanocomputer acquistano anchesoftware finanziario Regole di Associazione pane,burro latte con supporto 0.05 confidenza 0.9 Afferma che: pane, burro e latte compaiono insieme nel 5% degli scontrini Il 90% degli scontrini che contengonopane e burro contengono anchelatte 21

22 Regole di Associazione Le regole di associazione sono una sorta di implicazioni La regolax Y viene interpretata come nelle transazioni in cui compare X compare anche Y X è detto corpo o rule body, Y è detta testa o rule head nelle transazioni in cui compare X compare anchey Le regole di associazione sono caratterizzate da due misure statistiche: supporto, e confidenza. Il supporto indica la percentuale di transazioni che contengono entrambexed Y La confidenza indica, date le transazioni che contengono X, qual è la percentuale di transazioni che contengono Y Esempio 22

23 Esempio Supporto? Confidenza? Esempio Supporto = percentuale di transazioni in cui compaiono entrambi i simboli. Supporto = 4/12 =

24 Esempio Confidenza = date le transazioni contenenti un quadrato nero, qual è la percentuale di transazioni che contengono anche un triangolo bianco? Confidenza = 4/5 = 0.80 Formalmente... Dati un insieme I di item {I 1 I n } un insieme D di transazioni T, T I due insiemexe Y di elementi, X I Y I la funzionefreq(x,d) che restituisce pa percentuale di transazioni in D che contengonox 24

25 Formalmente... La regola X Y indica che le transazioni T che contengono X (X T), conterranno molto probabilmente anche gli elementi di Y (Y T) Il supporto di X Y rispetto a D è calcolato come support(x Y,D) = freq(x Y,D) La confidenza di X Y rispetto a D è calcolata come confidence(x Y,D) = freq(x Y,D)/freq(X,D) Formalmente Il problema di estrarre regole di associazione è definito come il problema di estrarre tutte le regole con un supporto superiore al parametro min_sup una confidenza superiore al parametro min_conf Le regole che soddisfano i vincoli di supporto minimo e confidenza minima sono dette strong association rules 25

26 Tipi di Regole di Associazione Le regole di associazione si caratterizzano in base a diverse caratteristiche quali: il tipo di dati trattati (nominali o numerici) Il numero di tipi di elementi coinvolti (T I 1 I n ) il numero di livelli di astrazione coinvolti Itemset Un insieme di item è detto itemset Un insieme di k item è detto k-itemset L insieme {pane,burro,latte}è un 3-itemset Il Support count indica il numero di transazioni che contengono un certo itemset 26

27 Itemset La frequenza di un itemset è la percentuale di transazioni in cui tutti gli elementi dell itemset compaiono Un itemset con frequenza superiore a min_sup è detto frequent itemset L insieme dei itemset di ordine k è indicato con L k Esempio Qual è la frequenza dell itemset formato da un triangolo, un quadrato ed un esagono bianchi? 4/12 27

28 È un processo in due fasi Come funziona? Nella prima fase vengono estratti tutti i frequent itemset Nella seconda fase vengono estratte tutte le regole di associazione che soddisfano i vincoli di min_sup e min_conf Calcolo dei frequent itemset Se un itemset X non soddisfa min_sup allora nessuna sua estensione X Y soddiferà min_sup Si parte dall insieme L 1 dei frequent itemset contenenti un solo elemento L 1 è utilizzato per trovare L 2 L 2 è utilizzato per trovare L 3 Il processo continua fino a quando non è più possibile trovare frequent k-itemset 28

29 Algoritmo generale 1. Nella prima fase, il supporto di ogni item viene contato e vengono determinati i frequent itemset di dimensione 1 2. In ogni passo successivo, i frequent itemset determinati al passo precedente sono utilizzati per generare i nuovi itemset detti candidate itemsets. 3. Il supporto di ogni candidato è calcolato e i frequent itemset sono determinati 4. Il processo continua fino a quando non vengono trovati nuovi frequent itemset. Esempio Transazioni L 1 C 2 TID Items Itemset Support Itemset Support {1} 2 {1 3}* {2} 3 {1 4} {3} 3 {3 4} {5} 3 {2 3}* 2 C 3 Itemset Support {1 3 4} 1 {2 3 5}* 2 {2 5}* {3 5}* {1 2} {1 5} {1 3 5} 1 29

30 Dagli itemset alle regole... Dati due frequent itemset X e Y confidence(x Y) = P(Y X)= = support_count(x Y,D)/support_count(X,D) INPUT frequent itemset FI OUTPUT strong association rules for every frequent itemset X of FI for every non empty subset s of X { if support_count(x)/support_count(s)>min_conf } output the rule s (X-s) Formalmente... un insieme I di item {I 1 I n } un insieme D di transazioni T, T I due insiemexe Y di elementi, X I Y I data la funzionefreq(x,d) che restituisce pa percentuale di transazioni in D che contengonox La regola X Y indica che le transazioni T che contengono X (X T), conterranno molto probabilmente anche gli elementi di Y (Y T) Il supporto di X Y rispetto a D è calcolato come support(x Y,D) = freq(x Y,D) La confidenza di X Y rispetto a D è calcolata come confidence(x Y,D) = freq(x Y,D)/freq(X,D) 30

31 Riferimenti J.Han & M.Kamber. Data Mining: Concepts and techniques Morgan Kaufmann (2001). Capitolo 6 e 8. 31