Unsupervised Learning

Transcript

1 Unsupervised Learning Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò 21/05/2018

2 Unsupervised Learning Unsupervised learning Clustering Dimensionality reduction Data visualization

3 Unsupervised Learning Voglio modellizzare la distribuzione degli input Dati: un training set composto da soli input D = {x} (vettori), solitamente in numero molto elevato Trovare: un modo efficace per descrivere i dati in maniera concisa (ridurre le dimensioni) Clustering: ridurre il numero dei dati significativi Dimensionality reduction: ridurre il numero di dimensioni dei vettori di input Data visualization: proporre una visualizzazione dei dati che mantegna le posizione relative tra i dati

4 Quando usare tecniche di Unsupervised Learning Abbiamo a disposizione un set di dati molto grande Non riusciamo a gestirli tutti per prendere decisioni Vogliamo avere un modo di analizzare visivamente i dati Soluzione: riduciamone il numero Riduciamo il numero di sample (clustering) Riduciamo la dimensionalità di ognuno dei dati (dimensionality reduction)

5 Clustering Voglio estrarre dal dataset un sottoinsieme di sample che siano rappresentativi dell intero dataset Divido il dataset in sottonsiemi simili di sample Domande: Come valuto se due sample sono simili tra loro? Come valuto il risultato ottenuto? (non esiste una risposta condivisa)

6 K-means clustering Idea: uso un vettore media come rappresentativo di ogni cluster Necessito di vettori numerici (posso calcolare la distanza tra due di essi) Scelgo un numero di cluster (gruppi) K e minimizzo: Appartenenza del sample n al cluster k Rappresentante del cluster k (media) Nota: ho scelto la distanza euclidea tra due vettori

7 Algoritmo K-means Una procedura analitica per la minimizzazione non esiste Procedura iterativa: Parto con dei rappresentanti μ k 0 scelti a caso Ripeto fino a convergenza (nessun punto si sposta più) Assegno ogni sample x n ad un cluster Calcolo i nuovi rappresentanti μ k i come media dei sample appartenenti al cluster Poiché la procedura diminuisce il valore della funzione obbiettivo J ad ogni iterazione, la procedura converge Potrebbe convergere ad un minimo locale

8 Più in dettaglio Ogni sample viene assegnato ad un cluster se Dopodichè posso minimizzare la funzione di costo J, ponendo la sua derivata a zero Per questo stiamo non aumentando il valore della funzione obbiettivo ad ogni passo

9 Esempio di K-means

10 K-means per compressione di Immagini

11 Domande sul K-means È effettivamente un algoritmo efficiente? Possiamo pensare ad una preocedura che arrivi al minimo globale? Come definisco i suoi parametri? Come setto il valore K?

12 Potremmo fare di meglio Soluzione Brute Force: si potrebbe valutare tutti i possibili assegnamenti di K cluster e trovare la configurazione che minimizzi la funzione obbiettivo J Purtroppo richiederebbe K N possibili configurazioni L algoritmo K-means invece richiede solo KNi operazioni, dove i è il numero di iterazioni richieste per la convergenza

13 Come scegliere K Non esiste un valore corretto per il parametro K A volte il valore viene richiesto dall applicazione Valuto il risultato del clustering con differnti valori di K Se volessi valutare l algoritmo con tutti i possibili valori di K, l algoritmo scalerebbe come N 2, il che lo rende in pratica non applicabile

14 Problemi del K-means Utilizzando come misura di dissimilarità la distanza euclidea: Non è robusto agli outliers Non possiamo applicarlo a dati categorici (non esistono i rappresentanti medi) Potenziali soluzioni: Per quanto riguarda gli outliers, possiamo utilizzare altre misure di dissimilarità, ad esempio la distanza manhattan o di Mahalanobis Possiamo definire il rappresentante del cluster come quel sample che ha minore dissimilarità da tutti gli altri (K-medoids), l algoritmo risulta anche più robusto al rumore statistico e agli outliers

15 Altri problemi Il K-means assume che i cluster abbiano una forma ben precisa perchè funzioni adeguatamente I cluster devono essere sferici essere ben separati avere lo stesso volume avere lo stesso numero di punti

16 Esempi di clustering finito male

17 Ulteriori soluzioni Esistono altri metodi di clustering X-means: decide in maniera automatica il numero dei cluster Mixture models: approssimano i dati come una mistura (combinazione convessa) di distribuzioni DB-scan: considera l esistenza di alcuni punti non assegnati ad alcun cluster. Non richiede di specificare il numero di cluster Clustering gerarchico: raggruppa per primi i punti più vicin tra di loro, dopodichè continua fino a creare gruppi con distanza sempre più alta tra i punti Affinity propagation: basato sul concetto di message passing. Non richiede di specificare il numero di cluster Clustering spettrale: utilizzano degli indici calcolati sulla matrice di dissimilarità tra i sample

18 Esecuzione di DBScan

19 Clustering gerarchico

20 Dimensionality reduction Vogliamo trovare una buona approssimazione del dataset che non abbia una dimensionalità troppo elevata (sia per questioni di spazio che per questioni di informazione) Solitamente viene utilizzato per apprendre un modello di feature trasformate e poi viene utilizzato per fare apprendimento sui nuovi dati trasformati Per come è formulato esso si presenta come un problema non supervisionato Alcune delle tecniche sono: PCA: principal component analysis ICA: independent component analysis SOM: self-organizing maps (le vedremo più avanti)

21 Rispetto ad altri metodi Dato un dataset di N sample ognuno di dimensione M Clustering: diminuisco le dimensioni del dataset, scegliendo solo dei rappresentanti di ogni cluster (diminuisco N) Feature selection: diminuisco le feature a disposizione scartando quelle inutili (diminuisco M escludendo alcune feature) Dimensionality reduction: diminuisco le feature a disposizione creando un numero minore di nuove feature (diminuisco M generando k nuove feature)

22 Principal Component analysis Idea: vogliamo proiettare il nostro dataset nella direzione dove c è più varianza dei dati

23 Algoritmo Concettuale Cerchiamo una direzione in cui ci sia la maggiore varianza (first principal component) Dopodichè cerchiamo una seconda dimensione, ortogonale alla prima che abbia la massima varianza (second principal component) Itero fino alla dimensione M In due dimensioni scelta la prima ho che la seconda componente è fissata

24 Algoritmo Calcolo la media dei dati Calcolo la matrice di covarianza L autovettore e 1 corrispondente all autovalore più grande λ 1 è la direzione della prima componente principale L autovettore e 2 corrispondente al secondo autovalore più grande λ 2 è la direzione della seconda componente principale...

25 Scelta delle Componenti principali A questo punto ho una nuova base ortonormale per lo spazio delle feature Se scelgo solo le prime k componenti principali, ho una rappresentazione dei dati in uno spazio a dimensionalità più bassa Perdo in informazione, nello specifico con k componenti principali riesco k λ i a spiegare σ i=1 della varianza totale del fenomeno M λ i σ i=1 Proiettando nel vecchio spazio i nuovi sample ho dei vettori che ricostruiscono il dataset originale (con qualche grado di errore)

26 Pro e Contro Pro: Aiuta a ridurre la complessità computazionale riducendo le feature Può essere di supporto a metodi di supervised learning Solitamente le ultime componenti principali contengono solo rumore, quindi riesco a rimuoverlo facilmente Contro: Se ho molti cluster di dati potrei peggiorare la situazione Le proiezioni che considero sono su dei manifold lineari dello spazio originario dei dati

27 Simpson s Paradox

28 Formulazione della PCA come problema di minimizzazione Consideriamo una base ortonormale {u i } tale che u i T i j = δ ij (uno solo se gli indici sono uguali) Posso riscrivere Per avere una rappresentazione più concisa decompongo ogni vettore come Coefficienti dipendenti dal sample Coefficienti caratteristici del dataset

29 Un approssimazione M dimensionale Considero come errore di ricostruzione Derivando rispetto ai coefficienti z ni e successivamente rispetto ai coefficienti b i ho con un errore sul singolo vettore di L errore è interamente contenuto nello spazio ortogonale alle prime M dimensioni

30 Minimizzo la distorsione La funzione distorsione diventa A questo punto dobbiamo minimizzare J rispetto alla base u i Ad esempio volessimo trovare una soluzione M = 1 dimensionale ad un problema 2D dovremmo minimizzare Il lagrangiano è s.t.

31 Scopi della PCA Dimensionality reduction: tengo una percentuale di dimensioni per poter poi utilizzare i dati per fare apprendimento Data visualization: proietto i dati in uno spazio 2D o 3D così li posso visualizzare ed analizzare più facilmente Compressione: trovo un approssimazione dei dati originali che perda il minimo in termini distorsione

32 Scelta delle componenti principali Scegliere un numero di dimensioni troppo piccolo (k 3) potrebbe generare dei dati molto differenti da quelli originali Una buona regola è quella tenere una percentuale fissata della varianza totale (90%-99%) oppure di identificare un gomito nella curva della varianza cumulata

33 Independent Component Analysis Applicazione tipica: cocktail party problem Cerco di estrarre delle componenti che siano il più indipendenti tra di loro Posso estrarre un numero di componenti a mia scelta a patto che siano minori o uguali al numero delle osservazioni

34 Data visualization La PCA può essere usata per visualizzare un dataset (scelgo k = 2 o k = 3) Gli obbiettivi di un algoritmo di visualizzazione dei dati sono: Proiettare i punti in un piano Punti vincini nello spazio proiettato devono essere vicini in quello di partenza Punti lontani nello spazio proiettato devono essere lontani nello spazio di partenza Esiste la possibilità che non vengano specificati i punti di partenza ma solo le distanze tra coppie di punti

35 Metodi specifici Esistono dei metodi che sono specificatamente pensati per visualizzare i dati ad alta dimensionalità Multi Dimensional Scaling (Torgerson Scaling) Metric MDS Sammon mapping Non-metric MDS

36 MDS Supponiamo di avere vettori x a media nulla Per calcolare le componenti principali abbiamo bisogno della matrice di covarianza C = 1 n XT X che è un prodotto interno, quindi C è una Gram matrix La prima componente principale è l autovettore corrispondente al primo autovalore di C Se riusciamo allora a creare una Gram matrix dalle distanze allora possiamo estrarre le componenti principali

37 Algoritmo del MDS Per calcolare le componenti principali devo fare Data una matrice di distanze D = {d ij } Applicare il double centering B = 1 JDJ dove J = I n 1T Calcolare la gli autovettori e i e gli autovalori λ i della matrice B I dati sono ricostruibili come X = E Λ 1 2 La soluzione trova dei punti che hanno esattamente la distanza di partenza Il processo precendente assume che le distanze tra punti siano euclidee Esiste una generalizzazione di MDS che considera anche metriche non euclidee

38 Metric MDS Considero una funzione di stress che, date delle posizioni dei punti p i in uno spazio scelto, mi dice quanto sono vicino alle distanze iniziali Posso minimizzare lo stress n S 2 = i,j,i j ad esempio, facendo gradient descend d ij p i p j 2 Posso inizializzare i punti con la soluzione del MDS classico e poi iterativamente minimizzare lo stress Allontano due punti se d ij < p i p j e li avvicino se d ij > p i p j

39 Shepard plot Idealmente dovremmo avrere i punti ottenuti tutti sulla diagonale

40 Sammon s mapping Possiamo utilizzare anche altre funzioni di stress, ad esempio che pesano differentemente i punti a seconda che siano vicini o lontani n S 2 = i,j,i j d ij p i p j d ij 2 Se due punti erano vicini nel dataset iniziale, probabilmente lo saranno anche nel dataset proiettato Non mi curo troppo dei punti la cui distanza è grande

41 Dataset problematico: Swiss Roll

42 Criticità degli algoritmi PCA Analizza solo dei manifold lineari nello spazio delle feature MDS / Sammon Considera tutte le distanze tra punti, anche quelle molto distanti Dovremo quindi ridefinire il concetto di distanza oppure focalizzarci solo su di un intorno del punto considerato

43 ISOMAP Creo un grafo dei punti, ogni nodo è un punto e solo i k punti più vicini sono connessi Gli archi hanno peso pari alla distanza tra i due punti La nuova distanza è quella data dal percorrere lo shortest path tra due punti Applico MDS su questa nuova matrice Questo riesce a raddrizzare la curvatura del manifold Purtroppo anche un solo arco di differenza (ad esempio tra due livelli dello swiss roll) può portare ad una soluzione molto differente

44 Altri metodi Self Organizing Maps (SOM) Local Linear Embeddings (LLE) Hessian LLE Laplacian Eigenmaps