Computazione per l interazione naturale: classificazione supervisionata

Transcript

1 Computazione per l interazione naturale: classificazione supervisionata Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it Il problema dell apprendimento statistico

2 Classificazione dei problemi di learning //apprendimento supervisionato I problemi di learning vengono divisi in due tipologie principali: supervised learning e unsupervised learning: Supervised: prevedere, dato un elemento di cui si conoscono un insieme di parametri (features), il valore di un diverso parametro di output relativo all elemento stesso. Viene definito (mediante apprendimento da insiemi di esempi) un modello Valori di output y Valori assunti dalle singole features x: Quantitativi: forniscono la misura di una grandezza Qualitativi: specificano una classe di appartenenza Quantitativi: regressione. Se y è un vettore, si parla di regressionemultivariata. Qualitativi: l assegnazione ad una classe (categoria), e si parla di classificazione. Numero di possibili classi = 2, si classificazione binaria, altrimenti di classificazione multi-classe. Apprendimento supervisionato //Classificazione

3 Apprendimento supervisionato //Classificazione vs regressione Regressione Classificazione Apprendimento supervisionato //Classificazione vs regressione Regressione Classificazione

4 Apprendimento supervisionato //Classificazione vs regressione Regressione Apprendimento supervisionato //Classificazione Classificazione

5 Apprendimento supervisionato //Classificazione Apprendimento supervisionato //Classificazione

6 Apprendimento supervisionato //Classificazione Apprendimento supervisionato //Classificazione

7 Apprendimento supervisionato //Classificazione Terminologia generale I valori y che si vogliono predire hanno come dominio un insieme discreto,in cui ogni valore denota una classe Ci Lo spazio di input è diviso in regioni di decisione Ri Modelli lineari di classificazione: i confini di decisione sono funzioni lineari dell input x (iperpiani a m! 1 dimensioni nello spazio m-dimensionale delle features) Insiemi di dati linearmente separabili: le classi possono essere separate in modo esatto per mezzo di superfici lineari.

8 Metodologia generale: modelli discriminativi Discriminativi non probabilistici: Trovare f : X! {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Discriminativi probabilistici: Effettuare direttamente una stima di p( y x, T) dal training set questo approccio è detto discriminativo, perchè, a partire da T, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output y x Metodologia generale: modelli generativi In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y T), derivata a partire dal training set p(x, y T)= p(y x, T) p(x T) y x Inferire la probabilità a posteriori mediante regola di Bayes p( y x, T) = p(x, y T) / p(x T) y x

9 Modelli probabilistici //inferenza e decisione Step 1: inferenza: determinazione di p(x, y) (nella classificazione p(x,c0), p(x,c1) o di p(x C0), p(x C1)) Step 2: decisione dell azione da compiere La teoria delle decisioni si occupa dello studio dei metodi di scelta delle migliori azioni da intraprendere Modelli probabilistici //teoria delle decisioni Problema: prendere una decisione che minimizzi l errore di classificazione Esempio: caso binario (due classi) Errore di classificazione con probabilità Minimizzato se x è assegnato alla classe per cui p(x, Ck) è massima max max

10 Modelli probabilistici //teoria delle decisioni Funzione di costo di misclassificazione Lkj: costo per la classificazione di Costo atteso Scegliere le Rj in modo da minimizzare E[L]: Assegniamo ogni x alla classe Ci tale che Modelli probabilistici //teoria delle decisioni: caso binario Alla regione R1 corrisponde il valore Alla regione R2 corrisponde il valore x viene assegnato a C1 se (usando Bayes)

11 Modelli probabilistici //teoria delle decisioni: caso binario Modelli probabilistici //teoria delle decisioni: caso binario Opzione di rifiuto: se la classificazione viene rifiutata Soglia di rifiuto! predefinita

12 Funzioni di discriminazione //lineari e lineari generalizzate Cos è unclassificatore lineare? La classificazione è intrinsecamente non lineare Semplicemente: la parte adattiva del classificatore (ad esempio i pesi) è lineare (come per la regressione) parte adattiva lineare decisione non lineare Casi possibili: non linearità fissata a valle della parte adattiva (decisione sigmoidale) non linearità fissata a monte della parte adattiva (funzioni di base non lineari) Funzioni di discriminazione //lineari e lineari generalizzate non linearità fissata a monte della parte adattiva (funzioni di base non lineari)

13 Funzioni di discriminazione //lineari e lineari generalizzate Consentono di assegnare ogni input x a una classe Definiscono una partizione dello spazio degli input in regioni Ri tali che se x! Ri allora x viene assegnato alla classe Ci Modello lineare: Modello lineare generalizzato: funzione di attivazione, non lineare funzione di attivazione, non lineare Funzioni di discriminazione //lineari e lineari generalizzate: caso binario confine di decisione funzioni discriminanti

14 Funzioni di discriminazione //lineari e lineari generalizzate: geometria w ortogonale a tutti i punti sull iperpiano distanza è determinata dalla soglia w0 Funzioni di discriminazione //lineari e lineari generalizzate: geometria y(x) = w T x + w0 fornisce la distanza (in multipli di w ) di x dall iperpiano di decisione sia

15 Funzioni di discriminazione //lineari e lineari generalizzate: caso non binario Approccio 1: definire K! 1 funzioni di discriminazione la funzione fi (1 " i " K! 1) separa i punti appartenenti alla classe Ci da tutti gli altri: se fi(x) > 0 allora x! Ci, altrimenti x #! Ci Funzioni di discriminazione //lineari e lineari generalizzate: caso non binario Approccio 2: definizione di K(K! 1)/2 funzioni di discriminazione,una per ogni coppia di classi la funzione fij (1 " i < j " K) separa punti che potrebbero appartenere a Ci da punti che potrebbero appartenere a Cj : se x! Ci allora fij(x) > 0, mentre se x! Cj allora fij(x) < 0 un punto viene classificato a maggioranza : x! Ci se

16 Funzioni di discriminazione //lineari e lineari generalizzate: caso non binario Approccio 3: K funzioni lineari: Un punto x viene in questo caso assegnato alla classe Ck se Confine di decisione tra due classi iperpiano n " 1-dimensionale Funzioni di discriminazione generalizzata Funzione di discriminazione quadratica: d(d + 1)/2 coefficienti in aggiunta ai d + 1: superfici di separazione più complesse Funzioni di discriminazione generalizzate

17 Funzioni discriminanti vs regressione Classi rappresentate per mezzo di una codifica 1 su K : variabili z1,..., zk utilizzate per codificare le varie classi. Ci codificata dai valori Individuazione delle funzioni di discriminazione per mezzo di funzioni di regressione lineare yi associate alle variabili zi, e quindi alle varie classi Ci x assegnato alla Ck tale che Funzioni discriminanti vs regressione //minimi quadrati Interpretazione della regressione come stima del valore atteso delle variabili zi condizionato a x y(x) è una stima di E[y x], quindi yi(x) fornisce una stima di p(ci x). Ma yi(x) non è una probabilità

18 Funzioni discriminanti vs regressione //minimi quadrati Valori target (discreti, indicano le classi) in modalità 1 su K : un elemento del training set è una coppia Si definisce la matrice dei coefficienti di tutte le funzioni yi d + 1 coefficienti di y2 Allora: Funzioni discriminanti vs regressione //minimi quadrati Definiamo la matrice delle features dei dati di training Allora: n x (d + 1) (d + 1) x K Matrice n x K

19 Funzioni discriminanti vs regressione //minimi quadrati yj(xi) si confronta con l elemento di indici i, j della matrice Y (valore osservato nel training set per il j-esimo componente dell output relativo all elemento xi) La somma dei quadrati delle differenze tra valori calcolati e valori osservati, per tutti gli output relativi all elemento è cioè un elemento della diagonale della matrice L apprendimento per minimi quadrati minimizza la somma complessiva deiquadrati delle differenze tra valori calcolati e valori osservati, per tutti glioutput e tutti gli elementi del training set Funzioni discriminanti vs regressione //minimi quadrati L apprendimento per minimi quadrati minimizza la somma complessiva dei quadrati delle differenze tra valori calcolati e valori osservati, per tutti gli output e tutti gli elementi del training set:

20 Funzioni discriminanti vs regressione //minimi quadrati ++ Semplice MQ vs regressione logistica -- Sensibile agli outliers -- Poco preciso per K>2 Funzioni discriminanti //classificazione per riduzione di dimensionalità Linear Discriminant Analysis (LDA) o Fisher Discriminant Analysis: individuare una proiezione su un sottospazio opportuno in modo tale che le dueclassi siano il più possibile separate (nel caso binario) Si proiettano tutti i punti dello spazio p-dimensionale (p è il numero di features) corrispondenti agli elementi del training set su una retta,mediante una trasformazione Per K = 2, fissata una soglia, assegniamo { altrimenti

21 Funzioni discriminanti //classificazione per riduzione di dimensionalità Funzioni discriminanti //classificazione per riduzione di dimensionalità La scelta della retta su cui proiettare, e quindi dei coefficienti w che ladescrivono, è un elemento determinante rispetto alla possibilità di separare o meno le due classi

22 Funzioni discriminanti //classificazione per riduzione di dimensionalità Approccio 1: n1 elementi in C1 e n2 elementi in C2. I punti medidelle due classi sono Misura della separazione delle due classi, proiettate sulla retta: separazione tra i relativi punti medi Massimizzazione vincolata: proiezione del punto mi sulla retta trovare la retta w che massimizza m2! m1 aumentando i coefficienti di w e mantenendo la relativa proporzionalità, max Metodo dei moltiplicatori di Lagfange Funzioni discriminanti //classificazione per riduzione di dimensionalità max Metodo dei moltiplicatori di Lagfange La direzione di proiezione w è quella della congiungente m1 a m2.

23 Funzioni discriminanti //classificazione per riduzione di dimensionalità Può non essere la migliore separazione possibile Nella proiezione lungo la direzione della congiungente le proiezioni dei punti di ognuna delle classi sono poco concentrati (presentano una varianza elevata): le proiezioni delle due classi tendono maggiormente a sovrapporsi. Necessario individuare rette tali che le proiezioni delle due classi su di esse presentino una limitata dispersione delle proiezioni dei punti delle classi. Funzioni discriminanti //classificazione per riduzione di dimensionalità Dispersione (o scatter) nella proiezione della classe Ci (i = 1, 2): Stimatore di Fisher: tende ad assumere valori più grandi sia in presenza di maggiore distanza tra le proiezioni dei punti medi che di minore dispersione delle proiezioni dei punti delle due classi

24 Funzioni discriminanti //classificazione per riduzione di dimensionalità Stimatore di Fisher: Definiamo la matrice di covarianza empirica per la classe i matrice di dispersione tra le classi matrice di dispersione nelle classi Funzioni discriminanti //classificazione per riduzione di dimensionalità Massimizzando lo Stimatore di Fisher:

25 Modelli discriminativi probabilistici Discriminativi non probabilistici: Trovare f : X! {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Discriminativi probabilistici: Effettuare direttamente una stima di p( y x, T) dal training set questo approccio è detto discriminativo, perchè, a partire da T, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output y x Modelli discriminativi probabilistici //regressione logistica Si inferiscono direttamente le probabilità a posteriori della classe Logistic regression: uso una funzione sigmoidale

26 Modelli discriminativi probabilistici //regressione logistica: sigmoide Sigmoide Proprietà di simmetria La funzione inversa è la funzione logit Derivata Modelli discriminativi probabilistici //regressione logistica p(c0 x)=1 - p(c0 x) Lineare in x Per calcolare la p(c x) uso la regressione lineare per ottenere la logit e poi inverto usando la funzione logistica

27 Modelli discriminativi probabilistici //regressione logistica: esempio a 2 classi function EsempioLogisticRegression() %dati di training x = [ ]'; y = [ ]'; %fitting con generalized linear model dello Statistical %Toolbox w = glmfit(x,[y ones(10,1)],'binomial','link','logit') %predizione lineare %z = w(1) + x * (w(2)) %applicazione della funzione logistica alla componente %lineare z = Logistic(w(1) + x * (w(2))) figure(1) plot(x,y,'o', x,z,'-', 'LineWidth',2) C0 C1 end function Output = Logistic(Input) Output = 1./ (1 + exp(-input)); end Modelli discriminativi probabilistici //regressione logistica Estensione a più classi: uso la decisione con funzione softmax La logistica è un caso particolare di softmax a due classi

28 Modelli discriminativi probabilistici //regressione logistica: learning via ML Per due classi possiamo utilizzare l approccio a ML I target tn sono binari e seguono una distribuzione di Bernoulli Funzione di likelihood: L errore è la log-likelihood negativa Modelli discriminativi probabilistici //regressione logistica: learning via ML Calcolo il gradiente di E e pongo a zero: Non esiste soluzione in forma chiusa

29 Modelli discriminativi probabilistici //regressione logistica: learning via ML Non esiste soluzione in forma chiusa = 0 Approccio 1 (semplice): soluzione iterativa, metodo della discesa del gradiente (steepest descent) Metodo del gradiente problemi: overfitting Modelli discriminativi probabilistici //regressione logistica: learning via ML Non esiste soluzione in forma chiusa Approccio 2: IRLS (iterative Reweighted Least Square) una variante del metodo di Newton- Raphson = 0

30 Modelli discriminativi probabilistici //regressione logistica: learning via ML Non esiste soluzione in forma chiusa Approccio 2: IRLS (iterative Reweighted Least Square) una variante del metodo di Newton- Raphson = 0 Modelli discriminativi probabilistici //regressione logistica: K classi Uso la softmax Likelihood multinomiale: =[ ] Errore: Matrice Hessiana: Stima parametri: IRLS

31 Modelli generativi di classificazione In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y T), derivata a partire dal training set p(x, y T)= p(y x, T) p(x T) y x Inferire la probabilità a posteriori mediante regola di Bayes p( y x, T) = p(x, y T) / p(x T) y x Modelli generativi di classificazione: GDA //input gaussiano, K=2 Probabilità a posteriori di C1 Funzione di verosimiglianza Gaussiana Ipotesi: tutte le classi hanno la stessa matrice di covarianza

32 Modelli generativi di classificazione: GDA //input gaussiano, K=2 Con un po di conti... Modelli generativi di classificazione: GDA //input gaussiano, K>2 Più classi Se tutte le classi non hanno la stessa matrice di covarianza il discriminante è quadratico

33 Modelli generativi di classificazione: GDA //input gaussiano, K>2 Più classi Se tutte le classi non hanno la stessa matrice di covarianza il discriminante è quadratico Modelli generativi di classificazione: GDA //input gaussiano: fitting dei parametri con ML ML per i parametri gaussiani Probabilità a priori Probabilità congiunta Likelihood a posteriori Log-likelihood componente a priori componente verosimiglianza

34 Modelli generativi di classificazione: GDA //input gaussiano: fitting dei parametri con ML Ponendo il gradiente uguale a zero Stima dei parametri a priori frazione di punti in una classe Stima delle medie media di punti assegnati a una classe Modelli generativi di classificazione: GDA //input gaussiano: fitting dei parametri con ML Ponendo il gradiente uguale a zero Stima della covarianza (identica per tutte le classi media pesata delle covarianze

35 Modelli generativi di classificazione: GDA //input gaussiano vs LR GDA ha una forte assunzione di Gaussianità dei dati di input se l ipotesi è vera il classificatore è asintoticamente efficiente (il migliore) LR più robusta, meno dipendenza dalle ipotesi sui dati (gaussianità) se input non gaussiano per grandi N, LR è migliore di GDA Modelli generativi di classificazione: Naive Bayes (NB) Feature binarie Ipotesi: features indipendenti, data la classe Regola di decisione: Per il fitting è ancora un GLM Lineare in x

36 Un quadro complessivo