Classificazione. Apprendimento supervisionato //Classificazione. Corso di Sistemi di Elaborazione dell Informazione

Transcript

1 Classificazione SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano Apprendimento supervisionato //Classificazione

2 Apprendimento supervisionato //Classificazione Apprendimento supervisionato //Classificazione vs regressione Regressione Classificazione

3 Apprendimento supervisionato //Classificazione vs regressione Regressione Classificazione Terminologia generale I valori y che si vogliono predire hanno come dominio un insieme discreto,in cui ogni valore denota una classe Ci Lo spazio di input è diviso in regioni di decisione Ri Modelli lineari di classificazione: i confini di decisione sono funzioni lineari dell input x (iperpiani a m 1 dimensioni nello spazio m-dimensionale delle features) Insiemi di dati linearmente separabili: le classi possono essere separate in modo esatto per mezzo di superfici lineari.

4 Metodologia generale: modelli discriminativi //non probabilistici Discriminativi non probabilistici: Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Esempi: k-nearest Neighbor (knn) SVM (Support Vector Machine) Metodologia generale: modelli discriminativi //non probabilistici Discriminativi non probabilistici: Nearest - Neighbor : Uno dei classificatori più semplici

5 Metodologia generale: modelli discriminativi //non probabilistici Discriminativi non probabilistici: Nearest - Neighbor : Uno dei classificatori più semplici Troviamo il valore più vicino e rubiamo la sua label? Metodologia generale: modelli discriminativi //non probabilistici Discriminativi non probabilistici: Nearest - Neighbor : Uno dei classificatori più semplici Troviamo il valore più vicino e rubiamo la sua label % Input: % - data set X : matrice NxD % - label t : vettore Nx1 % - test point Xtest : vettore 1xD % Output: % - X(j,:) : il N-N % - t(j) : label del N-N distanza del vicino [N,D]=size (X); Xdisp = X - repmat(xtest,n,1); Xdist2 = sum(xdisp.^2, 2); [min_dist2, j]= min(xdist2) ;? lab = t(j);

6 Esempio: classificatore NN su binary digits k-nearest Neighbor Generalizziamo NN a knn: Troviamo i k più vicini a e ognuno vota con la propria label Si decide a maggioranza (Majority Vote) (Se non c e una maggioranza si fa scelta random)

7 k-nearest Neighbor function [error,tpred] = knn_multi_class(x, t, Xtest, ttest, k) Ntest = size(xtest,1); N = size(x,1); tpred = zeros(ntest,1); C = max(t); for n=1:ntest Dist = sum(( repmat(xtest(n,:),n,1) - X ).^2,2 ); [sorted_list,sorted_index] = sort(dist); [max_k, index_max_k] = max(histc(t(sorted_index(1:k)),1:c));%conteggia le classi con histc % e prende il max tpred(n) = index_max_k; end error = 100*sum(tpred ~= ttest)/ntest; Esempio: ruolo di K in un classificatore knn

8 Support Vector Machine (SVM) // Cos è un buon Decision Boundary? Class 2 Class 2 Class 1 Class 1 15 Support Vector Machine (SVM) //Cos è un buon Decision Boundary? Due classi linearmente separabili Soluzione discriminativa: caso binario: target +1 / -1 16

9 Support Vector Machine (SVM) //Cos è un buon Decision Boundary? Intuitivamente: Decision boundary: deve essere lontano dai dati di entrambe le classi Class 1 Class 2 Margine 17 Support Vector Machine (SVM) // Large-margin Decision Boundary Decision boundary: deve essere lontano dai dati di entrambe le classi Massimizzare il margine, m Distanza tra l origine e la retta w t x=k è k/ w Distanza punti / iperpiano Class 2 Class 1 m 18

10 Support Vector Machine (SVM) // Large-margin Decision Boundary Decision boundary: deve essere lontano dai dati di entrambe le classi Punti più vicini al margine Distanza punti / iperpiano Margine Class 2 Class 1 m 19 Support Vector Machine (SVM) // Trovare il Decision Boundary Decision boundary: deve essere lontano dai dati di entrambe le classi Massimizzare il margine minimizzare Class 2 Class 1 m 20

11 Support Vector Machine (SVM) // Trovare il Decision Boundary {x 1,..., x n } data set osservato, y i {1,-1} la label di classe per x i Il decision boundary dovrebbe classificare perfettamente Problema di ottimizzazione vincolata: Margin minimization 21 Support Vector Machine (SVM) // Trovare il Decision Boundary Minimizzo la funzione Lagrangiana (problema primale): con w 2 = w T w Calcolo gradiente di rispetto a w e b e pongo a zero 22

12 Il problema duale Sostituiamo in E funzione solo di α i 23 Il problema duale Problema duale: se conosco w, conosco α i ; se conosco α i, conosco w Massimizzo la nuova funzione obbiettivo (problema duale) 24

13 Il problema duale E un problema di programmazione quadratica (quadratic programming, QP) Esiste sempre un massimo globale rispetto a α i w si calcola poi come: 25 Il problema QP Molti metodi di QP Loqo, cplex, etc. ( Per SVM, sequential minimal optimization (SMO) è il più popolare QP: triviale da risolvere con due variabili Iterativamente: si seleziona una coppia (α i,α j ) e si risolve QP; si ripete fino a convergenza Per i nostri fini il QP solver è una black-box che utilizziamo e basta! 26

14 Support Vector Machine (SVM) // Soluzione Predizione rispetto a un dato nuovo z = Calcoliamo Classifichiamo z nella classe 1 se la somma è positiva, altrimenti classe 2 Nota: w non deve essere calcolato esplicitamente 27 Support Vector Machine (SVM) // Algoritmo SVM di base

15 Support Vector Machine (SVM) // Forma matriciale kernel Support Vector Machine (SVM) // Un esempio semplificato clear Step=0.5; N = 50; C=1000; X = [randn(n/2,2);randn(n/2,2)+[ones(n/2,1).*6 zeros(n/2,1)]]; t=[ones(n/2,1);-ones(n/2,1)]; [alpha,w_0,alpha_index]= mioqp(diag(t)*x*x'*diag(t),ones(n,1),t,c,1e-6); %Griglia dei contorni mn = min(x); mx = max(x); [x1,x2]=meshgrid(floor(mn(1)):step:ceil(mx(1)),floor(mn(2)):step:ceil(mx(2))); [n11,n12]=size(x1); [n21,n22]=size(x2); XG=[reshape(x1,n11*n12,1) reshape(x2,n21*n22,1)]; f = (t(alpha_index).*alpha)'*x(alpha_index,:)*xg' + w_0; plot(x(alpha_index,1),x(alpha_index,2),'go'); hold plot(x(1:n/2,1),x(1:n/2,2),'.') plot(x(n/2+1:n,1),x(n/2+1:n,2),'r.') contour(x1,x2,reshape(f,[n11,n12]),[0 0]); hold off

16 Esempio: hard margin SVM Support Vector Machine (SVM) // Caratteristiche della soluzione: sparsità α 5 =0 α 4 =0 α 9 =0 Class 1 α 8 =0. 6 α 6 =1.4 α 3 =0 α 10 =0 α 1 =0.8 Class 2 α 7 =0 α 2 =0 32

17 Support Vector Machine (SVM) // Caratteristiche della soluzione: sparsità Molti α i sono nulli w è combinazione lineare di pochi punti Rappresentazione sparsa: data compression Sparse kernel machines x i corrispondenti ad α i diversi da zero: support vectors (SV) Il decision boundary è determinato unicamente dai SV Siano t j (j=1,..., s) gli indici dei SV: 33 Soft SVM //Non-linearly Separable Problems Consentiamo un errore ξ i nella classificazione; ξ i approssima il numero di sample misclassificati Class 2 Class 1 34

18 Appendice 2: soft SVM // Problemi di ottimizzazione soft vs. hard Soft margin Hard margin 35 Esempio: soft margin SVM

19 Support Vector Machine (SVM) // Estensione a Decision Boundary non lineare Abbiamo considerato un classificatore con decision boundary lineare Come generalizzare al caso non lineare? kernel 37 Support Vector Machine (SVM) // Estensione a Decision Boundary non lineare Abbiamo considerato un classificatore con decision boundary lineare Come generalizzare al caso non lineare? Idea: trasformare x i in uno spazio a dimensionalità maggiore Input space: spazio dei dati x i Feature space: lo spazio degli φ(x i ) dopo la trasformazione Perchè? Operazione lineare nel feature space = operazione non lineare nell input space 38

20 Support Vector Machine (SVM) // Trasformare i dati Input space φ(.) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) Feature space 39 Support Vector Machine (SVM) // Trasformare i dati con un polinomio di ordine 2 40

21 Support Vector Machine (SVM) // Trasformare i dati con una Radial Basis Function (RBF) 41 Support Vector Machine (SVM) // Il Kernel Trick Ricordiamo il problema iniziale I punti compaiono solo come distanza o prodotto scalare (inner product) Se dobbiamo calcolare una distanza nel feature space, non abbiamo bisogno del mapping esplicito Si definisce la funzione di kernel K come: 42

22 Support Vector Machine (SVM) // Esempi di Kernel Functions Polynomial kernel di grado d Radial Basis Function (RBF) kernel di ampiezza σ Collegato ai RBF neural networks Feature space infinito Sigmoide di parametri κ e θ 43 Support Vector Machine (SVM) // Algoritmo SVM (3)

23 Esempio: SVM con kernel Gaussiano Support Vector Machine (SVM) // altri aspetti Classificazione multi-class? Si può cambiare la formulazione di QP Oppure combinare multiple binary classifiers one-versus-all classifiers multiple pairwise classifiers intelligently Come interpretare il valore della SVM discriminant function in termini di probabilità? Effettuare logistic regression sull output di SVM su validation set Usare software SVM (e.g. libsvm) che è multi-class 46

24 Support Vector Machine (SVM) // Istruzioni per l uso Preparare la pattern matrix Selezionare la kernel function Selezionare i parametri della kernel function e il valore di C validation set Training per ottenere gli α i Classificare usando α i e support vectors ricavati dal training 47 Classificazione probabilistica Predire il genere dall altezza: Dati osservati (likelihood) Regione di separazione Prob. a priori Prob. a posteriori (Bayes)

25 Classificazione probabilistica Date le probabilità a posteriori: Regione di separazione Classifichiamo se: Possiamo Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Classificazione probabilistica Classifichiamo se: Regione di separazione Possiamo Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Esempio:

26 Metodologia generale: modelli discriminativi Discriminativi non probabilistici: Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Esempio: SVM (Support Vector Machine) Funzioni di discriminazione //lineari e lineari generalizzate Cos è un classificatore lineare? parte adattiva lineare decisione non lineare

27 Funzioni di discriminazione //lineari e lineari generalizzate Consentono di assegnare ogni input x a una classe Definiscono una partizione dello spazio degli input in regioni Ri tali che se x Ri allora x viene assegnato alla classe Ci Modello lineare: Modello lineare generalizzato (GLM): funzione di attivazione, non lineare funzione di attivazione, non lineare Metodologia generale: modelli discriminativi Discriminativi non probabilistici: Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) appena visti Discriminativi probabilistici: Effettuare direttamente una stima di p( y x) dal training set questo approccio è detto discriminativo, perchè, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output Esempio: regressione logistica (LR) y x

28 Metodologia generale: modelli generativi In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y ), derivata a partire dal training set y p(x, y )= p(y x) p(x ) x Inferire la probabilità a posteriori mediante regola di Bayes p( y x) = p(x, y ) / p(x) y x Modelli discriminativi probabilistici Discriminativi probabilistici: Effettuare direttamente una stima di p( y x) dal training set questo approccio è detto discriminativo, perchè, a partire da T, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output y x

29 Modelli discriminativi probabilistici //Regressione Logistica ) Modelli discriminativi probabilistici //regressione logistica: funzione logistica Logistica = La funzione inversa è la funzione logit = Derivata Proprietà di simmetria

30 Modelli discriminativi probabilistici //Regressione Logistica: algoritmo Trasformiamo il dato di input usando M funzioni di base Usiamo un modello lineare per descrivere la log-likelihood ratio Funzione Logistica Poichè Modelli discriminativi probabilistici //Regressione Logistica: algoritmo Algoritmo di base: Step 1. Calcolo la funzione logit con una regressione = Step 2. Inverto la logit ottenendo la logistica, cioè la posteriori

31 Modelli discriminativi probabilistici //regressione logistica: esempio a 2 classi function EsempioLogisticRegression() %dati di training x = [ ]'; y = [ ]'; %fitting con generalized linear model dello Statistical %Toolbox w = glmfit(x,[y ones(10,1)],'binomial','link','logit') %predizione lineare %z = w(1) + x * (w(2)) %applicazione della funzione logistica alla componente %lineare z = Logistic(w(1) + x * (w(2))) figure(1) plot(x,y,'o', x,z,'-', 'LineWidth',2) C0 C1 end function Output = Logistic(Input) Output = 1./ (1 + exp(-input)); end Modelli discriminativi probabilistici //regressione logistica Estensione a più classi: uso la decisione con funzione softmax La logistica è un caso particolare di softmax a due classi

32 Modelli discriminativi probabilistici //regressione logistica Bayesiana come se fosse una regressione, ma i target hanno una risposta binaria Modelli discriminativi probabilistici //regressione logistica Bayesiana a posteriori likelihood likelihood marginale a priori

33 Modelli discriminativi probabilistici //regressione logistica Bayesiana Funzione di likelihood (iid): likelihood funzione sigmoidale Modelli discriminativi probabilistici //regressione logistica Bayesiana Funzione di likelihood (iid): likelihood I target tn sono binari e seguono una distribuzione di Bernoulli

34 Modelli discriminativi probabilistici //regressione logistica Bayesiana Funzione di likelihood (iid): likelihood Modelli discriminativi probabilistici //regressione logistica Bayesiana Probabilità a priori: come nella regressione Si introduce una probabilità a priori su w (che regolarizza: favorisce piccoli w) a priori

35 Modelli discriminativi probabilistici //regressione logistica Bayesiana In termini Bayesiani: classificazione = predizione valore atteso rispetto alla posteriori Modelli discriminativi probabilistici //regressione logistica Bayesiana Predizione: in generale complicata, perché la likelihood non è gaussiana valore atteso rispetto alla posteriori likelihood a priori hic sunt leones! likelihood marginale (f. di partizione)

36 Modelli discriminativi probabilistici //regressione logistica Bayesiana Tre possibilità: 1.Trovo una stima puntuale dei parametri dove è max (Maximum A Posteriori, MAP) 2. Approssimo con distribuzioni più semplici (metodo di Laplace o met. variazionali) 3.Uso metodi di sampling (Monte Carlo) Modelli discriminativi probabilistici //regressione logistica Bayesiana Tre possibilità: 1.Trovo una stima puntuale dei parametri dove è max (Maximum A Posteriori, MAP) Non calcolabile in forma chiusa come nel caso del modello lineare: uso Newton Raphson

37 Modelli discriminativi probabilistici //regressione logistica Bayesiana Modelli discriminativi probabilistici //regressione logistica Bayesiana

38 Modelli discriminativi probabilistici //regressione logistica Bayesiana Predizione: in generale complicata, perché la likelihood non è gaussiana valore atteso rispetto alla posteriori likelihood a priori hic sunt leones! likelihood marginale (f. di partizione) Modelli discriminativi probabilistici //regressione logistica Bayesiana Predizione: in generale complicata, perché la likelihood non è gaussiana

39 Esempio Matlab %Newton routine per trovare i valori MAP di w1 & w2 %Fisso un numero di step a 10 e stime iniziali a w1=0, w2=0 N_Steps = 10; w = [0;0]; for m=1:n_steps %memorizza i parametri e plotta l evoluzione delle stime ww(m,:) = w; plot(ww(:,1),ww(:,2),'k.-'); drawnow pause(0.1) end %Newton Step P = 1./(1 + exp(-x*w)); V = diag(p.*(1-p)); H = inv(x'*v*x + eye(d)./alpha); w = H*X'*(V*X*w + t - P); %Calcola le nuove likelihood f=x*w; lpr = log(gauss(zeros(1,d),eye(d).*alpha,w')); llk = f'*t - sum(log(1+exp(f))); ljt = llk + lpr; fprintf('log-likelihood = %f, Joint-Likelihood = %f\n',llk,ljt) Esempio: classificazione logistica in approssimazione MAP

40 Modelli discriminativi probabilistici //regressione logistica Bayesiana: non lineare Esempio: classificazione logistica non lineare

41 Modelli generativi di classificazione In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y), derivata a partire dal training set y p(x, y )= p(y x) p(x ) x Inferire la probabilità a posteriori mediante regola di Bayes p( y x) = p(x, y ) / p(x) y x Modelli generativi di classificazione Prima (non generativo) modello diretto della pdf a posteriori Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi modello della distribuzione a priori modello della likelihood

42 Modelli generativi di classificazione Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi modello della distribuzione a priori Un opzione semplice: dato il training set, conto il numero di target appartenenti alla classe k Modelli generativi di classificazione // Modello Gaussiano (GDA) Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi Funzione di verosimiglianza Gaussiana: modello della likelihood

43 Modelli generativi di classificazione // Modello Gaussiano (GDA) %% Stima dei parametri (ML) class_var = []; for c = 1:length(cl) pos = find(t==cl(c)); % Medie class_mean(c,:) = mean(x(pos,:)); % Matrici di covarianza class_var(:,:,c) = cov(x(pos,:),1); end %% Probabilità predittive [Xv,Yv] = meshgrid(-3:0.1:7,-6:0.1:6); Probs = []; for c = 1:length(cl) temp = [Xv(:)-class_mean(c,1) Yv(:)-class_mean(c,2)]; sigma_k = class_var(:,:,c); const = -log(2*pi) - log(det(sigma_k)); Probs(:,:,c) = reshape(exp(const - 0.5*diag(temp*inv(sigma_k)*temp')),size(Xv));; end Probs = Probs./repmat(sum(Probs,3),[1,1,3]); Modelli generativi di classificazione // Modello Gaussiano (GDA) Che forma ha la funzione discriminante (la curva di separazione? Forma quadratica Forma lineare: se le matrici di covarianza sono uguali LDA: Linear Discriminan Analysis

44 Modelli generativi di classificazione // Modello Gaussiano (GDA) %% Load dei dati load bc_data % Plot dei dati cl = unique(t); col = {'ko','kd','ks'} fcol = {[1 0 0],[0 1 0],[0 0 1]}; figure(1); title('dati originali') hold off for c = 1:length(cl) pos = find(t==cl(c)); plot(x(pos,1),x(pos,2),col{c},... 'markersize',10,'linewidth',2,... 'markerfacecolor',fcol{c}); hold on end xlim([-3 7]) ylim([-6 6]) Modelli generativi di classificazione // Modello Gaussiano (GDA) classe 1 classe 2 classe 3

45 Modelli generativi di classificazione // Naive Bayes (Bayes degli idioti) Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi Funzione di verosimiglianza Gaussiana: modello della likelihood Matrice di covarianza diagonale Modelli generativi di classificazione // Naive Bayes (Bayes degli idioti) % Stima con l'ipotesi Naive for c = 1:length(cl) pos = find(t==cl(c)); % Find the means class_mean(c,:) = mean(x(pos,:)); class_var(c,:) = var(x(pos,:),1); end %% Probabilità predittive [Xv,Yv] = meshgrid(-3:0.1:7,-6:0.1:6); Probs = []; for c = 1:length(cl) temp = [Xv(:)-class_mean(c,1) Yv(:)-class_mean(c,2)]; sigma_k = diag(class_var(c,:)); const = -log(2*pi) - log(det(sigma_k)); Probs(:,:,c) = reshape(exp(const - 0.5*diag(temp*inv(sigma_k)*temp')),size(Xv));; end Probs = Probs./repmat(sum(Probs,3),[1,1,3]);

46 Modelli generativi di classificazione // Modello Gaussiano vs Gaussiano Naive classe 1 classe 2 classe 3 Esempio: classificazione generativa senza e con ipotesi naive

47 Modelli generativi di classificazione: GDA //input gaussiano vs LR GDA ha una forte assunzione di Gaussianità dei dati di input se l ipotesi è vera il classificatore è asintoticamente efficiente (il migliore) LR più robusta, meno dipendenza dalle ipotesi sui dati (gaussianità) se input non gaussiano per grandi N, LR è migliore di GDA Classificazione: appendici

48 Appendice 1 //Richiami di ottimizzazione vincolata Minimizzare f(x) sotto il vincolo (s.t.) g(x) = 0 Condizione necessaria affinchè x 0 sia una soluzione: α: moltiplicatore di Lagrange (Lagrange multiplier) Vincoli multipli (multiple constraints) g i (x) = 0, i=1,, m, un moltiplicatore α i per ciascun vincolo 95 Appendice 1 //Richiami di ottimizzazione vincolata Per vincoli del tipo g i (x) 0 il Lagrange multiplier α i deve essere positivo Se x 0 è soluzione per il problema esistono α i 0 per i=1,, m tali che x 0 soddisfa Lagrangiana La funzione essere messo a 0 è la Lagrangiana; il suo gradiente deve 96

49 Appendice 2: soft SVM //Non-linearly Separable Problems Consentiamo un errore ξ i nella classificazione; ξ i approssima il numero di sample misclassificati Class 2 Class 1 97 Appendice 2: soft SVM // Iper-piano a margine soft Minimizziamo i ξ i, ξ i si calcolano come ξ i sono slack variables Se ξ i =0 non c e errore per x i ξ i upper bound al numero di errori Minimizziamo C : tradeoff parameter tra errore e margine 98

50 Appendice 2: soft SVM // Iper-piano a margine soft Duale: w si ottiene come: 99 Appendice 2: soft SVM // Problemi di ottimizzazione soft vs. hard Soft margin Hard margin 100

51 Appendice 2: soft SVM // Algoritmo SVM soft (2)