Computazione per l interazione naturale: classificazione probabilistica

Documenti analoghi
Computazione per l interazione naturale: classificazione probabilistica

Computazione per l interazione naturale: classificazione supervisionata

Classificazione. Apprendimento supervisionato //Classificazione. Corso di Sistemi di Elaborazione dell Informazione

Computazione per l interazione naturale: regressione logistica Bayesiana

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione lineare

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: processi gaussiani

Computazione per l interazione naturale: Modelli dinamici

Computazione per l interazione naturale: fondamenti probabilistici (2)

Regressione. Apprendimento supervisionato //Regressione. Corso di Sistemi di Elaborazione dell Informazione

Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità)

Computazione per l interazione naturale: fondamenti probabilistici (2)

Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri

Computazione per l interazione naturale: clustering e riduzione di dimensionalità

Riduzione di dimensionalità

Computazione per l interazione naturale: fondamenti probabilistici

Apprendimento Automatico

Riconoscimento e recupero dell informazione per bioinformatica

Computazione per l interazione naturale: fondamenti probabilistici (1)

Computazione per l interazione naturale: fondamenti probabilistici

Gaussian processes (GP)

Minimi quadrati e massima verosimiglianza

Analisi Discriminante Strumenti quantitativi per la gestione

Regressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Riconoscimento e recupero dell informazione per bioinformatica

Apprendimento Automatico

Tecniche di riconoscimento statistico

Cenni di apprendimento in Reti Bayesiane

1 PROCESSI STOCASTICI... 11

Algoritmi di classificazione supervisionati

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Computazione per l interazione naturale: Richiami di ottimizzazione (3) (e primi esempi di Machine Learning)

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: Richiami di ottimizzazione (3) (e primi esempi di Machine Learning)

Teoria delle Decisioni Bayesiana

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Computazione per l interazione naturale: macchine che apprendono

Modelli Grafici Probabilistici (1): concetti generali

Tecniche di riconoscimento statistico

STATISTICA MULTIVARIATA SSD MAT/06

Approccio statistico alla classificazione

Statistica multivariata 27/09/2016. D.Rodi, 2016

Regressione Lineare e Regressione Logistica

Naïve Bayesian Classification

Campionamento. Una grandezza fisica e' distribuita secondo una certa PDF

Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Luigi Santoro. Hyperphar Group S.p.A., MIlano

Apprendimento statistico (Statistical Learning)

Classificazione Bayesiana

Apprendimento statistico (Statistical Learning)

Apprendimento Bayesiano

I Componenti del processo decisionale 7

Modelli Probabilistici per la Computazione Affettiva: Inferenza approssimata con Monte Carlo

Modelli Probabilistici per la Computazione Affettiva: Reti Bayesiane

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Presentazione dell edizione italiana

METODI DI CLASSIFICAZIONE. Federico Marini

Bayes, PDF, CDF. Renato Mainetti

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Modelli Probabilistici per la Computazione Affettiva: Modelli a template e rappresentazioni complesse

Metodi di classificazione

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Apprendimento Automatico Esercitazione 15/04/2009 Prof. Roberto Navigli

La likelihood. , x 2. } sia prodotto a partire dal particolare valore di a: ; a... f x N. La probabilità che l'i ma misura sia compresa tra x i

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Teoria e Tecniche del Riconoscimento

Statistica e analisi dei dati Data: 14 Marzo Lezione 7. Figura 1: Spazio campionario relativo al problema della diagnosi

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Regressione logistica. Strumenti quantitativi per la gestione

Calcolo applicato alla Statistica Maximum Likelihood

Metodi supervisionati di classificazione

Stima dell intervallo per un parametro

Introduzione alla Regressione Logistica

Rilevazione di messaggi spam con algoritmo Naive-Bayes

SUPPORT VECTOR MACHINES. a practical guide

Test statistici. Per ogni processo che stiamo considerando avremo una ipotesi per la pdf di e.g.

Tecniche di riconoscimento statistico

Sistemi ottici come sistemi lineari

A Quick Intro to Machine Learning. The field of study that gives computers the ability to learn without being explicitly programmed

Generazione di Numeri Casuali- Parte 2

Modelli tradizionali e statistici applicati alla percezione (2/2) Francesco Panerai

Il metodo delle osservazioni indirette

La Decisione Statistica Campione aleatorio: risultato dell osservazione di un fenomeno soggetto a fluttuazioni casuali.

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Introduzione al calcolo delle probabilità - II

Parte I. Apprendimento supervisionato

Esercizio: apprendimento di congiunzioni di letterali

Classificazione. Classificatore di Bayes Approccio parametrico (distribuzione Multinormale) Approccio non parametrico (Parzen Window)

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Transcript:

Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it http://boccignone.di.unimi.it/ium2_2014.html Classificazione probabilistica Predire il genere dall altezza: Dati osservati (likelihood) Regione di separazione Prob. a priori Prob. a posteriori (Bayes)

Classificazione probabilistica Date le probabilità a posteriori: Regione di separazione Classifichiamo se: Possiamo Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Classificazione probabilistica Classifichiamo Possiamo se: Regione di separazione Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Esempio:

Metodologia generale: modelli discriminativi Discriminativi non probabilistici: Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Esempio: SVM (Support Vector Machine) Funzioni di discriminazione //lineari e lineari generalizzate Cos è un classificatore lineare? La classificazione è intrinsecamente non lineare Semplicemente: la parte adattiva del classificatore (ad esempio i pesi) è lineare (come per la regressione) Casi possibili: parte adattiva lineare decisione non lineare non linearità fissata a valle della parte adattiva (decisione sigmoidale) non linearità fissata a monte della parte adattiva (funzioni di base non lineari)

Funzioni di discriminazione //lineari e lineari generalizzate non linearità fissata a monte della parte adattiva (funzioni di base non lineari) Funzioni di discriminazione //lineari e lineari generalizzate Consentono di assegnare ogni input x a una classe Definiscono una partizione dello spazio degli input in regioni Ri tali che se x Ri allora x viene assegnato alla classe Ci Modello lineare: Modello lineare generalizzato (GLM): funzione di attivazione, non lineare funzione di attivazione, non lineare

Metodologia generale: modelli discriminativi Discriminativi non probabilistici: Trovare f : X {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) già visti Discriminativi probabilistici: Effettuare direttamente una stima di p( y x, T) dal training set questo approccio è detto discriminativo, perchè, a partire da T, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output Esempio: regressione logistica (LR) y x Metodologia generale: modelli generativi In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y T), derivata a partire dal training set y p(x, y T)= p(y x, T) p(x T) x Inferire la probabilità a posteriori mediante regola di Bayes p( y x, T) = p(x, y T) / p(x T) y x

Modelli discriminativi probabilistici Discriminativi probabilistici: Effettuare direttamente una stima di p( y x, T) dal training set questo approccio è detto discriminativo, perchè, a partire da T, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output y x Modelli discriminativi probabilistici //Regressione Logistica Trasformiamo il dato di input usando M funzioni di base Usiamo un modello lineare per descrivere la log-likelihood ratio Funzione Logistica Poichè

Modelli discriminativi probabilistici //regressione logistica: funzione logistica Logistica Proprietà di simmetria La funzione inversa è la funzione logit Derivata Modelli discriminativi probabilistici //Regressione Logistica Algoritmo di base: Step 1. Calcolo la funzione logit con una regressione Step 2. Inverto la logit ottenendo la logistica, cioè la posteriori

Modelli discriminativi probabilistici //regressione logistica: esempio a 2 classi function EsempioLogisticRegression() %dati di training x = [0.0 0.1 0.7 1.0 1.1 1.3 1.4 1.7 2.1 2.2]'; y = [0 0 1 0 0 0 1 1 1 1]'; %fitting con generalized linear model dello Statistical %Toolbox w = glmfit(x,[y ones(10,1)],'binomial','link','logit') %predizione lineare %z = w(1) + x * (w(2)) %applicazione della funzione logistica alla componente %lineare z = Logistic(w(1) + x * (w(2))) figure(1) plot(x,y,'o', x,z,'-', 'LineWidth',2) end function Output = Logistic(Input) Output = 1./ (1 + exp(-input)); end C0 C1 Modelli discriminativi probabilistici //regressione logistica Estensione a più classi: uso la decisione con funzione softmax La logistica è un caso particolare di softmax a due classi

Modelli generativi di classificazione In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y T), derivata a partire dal training set y p(x, y T)= p(y x, T) p(x T) x Inferire la probabilità a posteriori mediante regola di Bayes p( y x, T) = p(x, y T) / p(x T) y x Modelli generativi di classificazione Prima (non generativo) modello diretto della pdf a posteriori Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi modello della distribuzione a priori modello della likelihood

Modelli generativi di classificazione Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi modello della distribuzione a priori Un opzione semplice: dato il training set, conto il numero di target appartenenti alla classe k // Modello Gaussiano (GDA) Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi Funzione di verosimiglianza Gaussiana: modello della likelihood

// Modello Gaussiano (GDA) %% Stima dei parametri (ML) class_var = []; for c = 1:length(cl) pos = find(t==cl(c)); % Medie class_mean(c,:) = mean(x(pos,:)); % Matrici di covarianza class_var(:,:,c) = cov(x(pos,:),1); end %% Probabilità predittive [Xv,Yv] = meshgrid(-3:0.1:7,-6:0.1:6); Probs = []; for c = 1:length(cl) temp = [Xv(:)-class_mean(c,1) Yv(:)-class_mean(c,2)]; sigma_k = class_var(:,:,c); const = -log(2*pi) - log(det(sigma_k)); Probs(:,:,c) = reshape(exp(const - 0.5*diag(temp*inv(sigma_k)*temp')),size(Xv));; end Probs = Probs./repmat(sum(Probs,3),[1,1,3]); // Modello Gaussiano (GDA) Che forma ha la funzione discriminante (la curva di separazione? Forma quadratica Forma lineare: se le matrici di covarianza sono uguali

// Modello Gaussiano (GDA) %% Load dei dati load bc_data % Plot dei dati cl = unique(t); col = {'ko','kd','ks'} fcol = {[1 0 0],[0 1 0],[0 0 1]}; figure(1); title('dati originali') hold off for c = 1:length(cl) pos = find(t==cl(c)); plot(x(pos,1),x(pos,2),col{c},... 'markersize',10,'linewidth',2,... 'markerfacecolor',fcol{c}); hold on end xlim([-3 7]) ylim([-6 6]) // Modello Gaussiano (GDA) classe 1 classe 2 classe 3

// Naive Bayes (Bayes degli idioti) Adesso definiamo una funzione discriminante che tiene conto degli a priori sulle classi Funzione di verosimiglianza Gaussiana: modello della likelihood Matrice di covarianza diagonale // Naive Bayes (Bayes degli idioti) % Stima con l'ipotesi Naive for c = 1:length(cl) pos = find(t==cl(c)); % Find the means class_mean(c,:) = mean(x(pos,:)); class_var(c,:) = var(x(pos,:),1); end %% Probabilità predittive [Xv,Yv] = meshgrid(-3:0.1:7,-6:0.1:6); Probs = []; for c = 1:length(cl) temp = [Xv(:)-class_mean(c,1) Yv(:)-class_mean(c,2)]; sigma_k = diag(class_var(c,:)); const = -log(2*pi) - log(det(sigma_k)); Probs(:,:,c) = reshape(exp(const - 0.5*diag(temp*inv(sigma_k)*temp')),size(Xv));; end Probs = Probs./repmat(sum(Probs,3),[1,1,3]);

// Modello Gaussiano vs Gaussiano Naive classe 1 classe 2 classe 3 // Naive Bayes (Bayes degli idioti) Caso non Gaussiano: Feature binarie Ipotesi: features indipendenti, data la classe Regola di decisione: Per il fitting è ancora un GLM Lineare in x Esempio: classificazione di documenti (Information Retrieval)

// Naive Bayes: Bag-of-Words Supponiamo di avere d documenti e un dizionario D di parole w. In ciascun documento la parola w puo esserci o non esserci (bag of words) Probabilita che w sia presente o no in un documento di classe k (sport, Natale,...) parole documento // Naive Bayes: Bag-of-Words Stima dei parametri ML Bayesiana

Modelli generativi di classificazione: GDA //input gaussiano vs LR GDA ha una forte assunzione di Gaussianità dei dati di input se l ipotesi è vera il classificatore è asintoticamente efficiente (il migliore) LR più robusta, meno dipendenza dalle ipotesi sui dati (gaussianità) se input non gaussiano per grandi N, LR è migliore di GDA