Apprendimento Bayesiano

Documenti analoghi
Cenni di apprendimento in Reti Bayesiane

Apprendimento Automatico

Apprendimento Automatico

ID3: Selezione Attributo Ottimo

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati

Apprendimento di Alberi di Decisione: Bias Induttivo

Sistemi Intelligenti 42. Apprendimento PAC

Classificazione Bayesiana

Alberi di Decisione (2)

Alberi di Decisione (2)

Richiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive

Esercizio: apprendimento di congiunzioni di letterali

Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità)

Computazione per l interazione naturale: Modelli dinamici

Computazione per l interazione naturale: Regressione probabilistica

Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri

Alberi di Decisione. Fabio Aiolli Sito web del corso

Naïve Bayesian Classification

Apprendimento Automatico

Stima dei parametri. I parametri di una pdf sono costanti che caratterizzano la sua forma. r.v. parameter. Assumiamo di avere un campione di valori

Introduzione alle Reti Bayesiane

Computazione per l interazione naturale: processi gaussiani

Computazione per l interazione naturale: macchine che apprendono

Algoritmi di classificazione supervisionati

Computazione per l interazione naturale: Regressione probabilistica

Lezione 6. Altri metodi di classificazione. Bayesian Learning

Apprendimento basato sulle istanze

Alberi di Decisione. Corso di AA, anno 2017/18, Padova. Fabio Aiolli. 23 Ottobre Fabio Aiolli Alberi di Decisione 23 Ottobre / 16

Computazione per l interazione naturale: Regressione probabilistica

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Apprendimento con Rinforzo

Sistemi Intelligenti 57. Alberi di Decisione. funzioni target con valori di output discreti (in generale più di 2 valori);

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi

Data mining: classificazione

Introduzione alla Modellazione Predittiva Dal ML al DM: Concept Learning

Computazione per l interazione naturale: classificazione probabilistica

Computazione per l interazione naturale: fondamenti probabilistici (2)

2.2 Alberi di supporto di costo ottimo

Matroidi, algoritmi greedy e teorema di Rado

Riconoscimento e recupero dell informazione per bioinformatica

2.2 Alberi di supporto di costo ottimo

Approccio statistico alla classificazione

Naive bayes. Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata. Giorgio Gambosi. a.a.

Reti Neurali in Generale

Stima dell intervallo per un parametro

Computazione per l interazione naturale: Regressione lineare

Metodi supervisionati di classificazione

Computazione per l interazione naturale: classificazione probabilistica

2.2 Alberi di supporto di costo ottimo

Problemi, istanze, soluzioni

Computazione per l interazione naturale: clustering e riduzione di dimensionalità

Machine Learning:Version Space. Sommario

3.2 Decision-Tree Learning

Apprendimento Automatico Esercitazione 15/04/2009 Prof. Roberto Navigli

Tecniche di riconoscimento statistico

La Decisione Statistica Campione aleatorio: risultato dell osservazione di un fenomeno soggetto a fluttuazioni casuali.

Teoria delle Decisioni Bayesiana

2.2 Alberi di supporto di costo ottimo

Tecniche di riconoscimento statistico

Modelli Probabilistici per la Computazione Affettiva: Reti Bayesiane

Introduzione al Machine Learning

Elementi di Apprendimento Automatico 1. Nozioni di Apprendimento Automatico

Regressione. Apprendimento supervisionato //Regressione. Corso di Sistemi di Elaborazione dell Informazione

Richiami di probabilità. Decision Theory e Utilità. Richiami di probabilità. assumere certi valori in un insieme x 1, x 2, x n (dominio)

La likelihood. , x 2. } sia prodotto a partire dal particolare valore di a: ; a... f x N. La probabilità che l'i ma misura sia compresa tra x i

Lezione 11 Ugo Vaccaro

Statistica Applicata all edilizia: Stime e stimatori

Apprendimento di Reti Bayesiane

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Minimi quadrati e massima verosimiglianza

Università di Siena. Corso di STATISTICA. Parte seconda: Teoria della stima. Andrea Garulli, Antonello Giannitrapani, Simone Paoletti

Classificatori Bayesiani. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

5. Analisi dei dati di input

Teoria dei Fenomeni Aleatori AA 2012/13

Learning finite Mixture- Models. Giuseppe Manco

3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1

Calcolo delle Probabilità e Statistica Matematica Fisciano, 10/1/2012

o Si sceglie il modello che meglio si adatta alla realtà osservata, cioè quello per il quale risulta più probabile la realtà osservata.

Rischio statistico e sua analisi

Esercizi d esamed. Spazio delle versioni

Particles Filter: an approximate solution to an exact model. Cristina Manfredotti

Esercizi di riepilogo

Pre-elaborazione dei dati (Data pre-processing)

Esercizi Capitolo 11 - Strutture di dati e progettazione di algoritmi

c) Ancora in corrispondenza allo stesso valore di p e ponendo Y = minorazione, fornita dalla diseguaglianza di Chebichev, per la probabilita

Modelli tradizionali e statistici applicati alla percezione (2/2) Francesco Panerai

Computazione per l interazione naturale: Regressione lineare Bayesiana

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Campionamento. Una grandezza fisica e' distribuita secondo una certa PDF

Algoritmi e Strutture Dati. Capitolo 13 Cammini minimi: Algoritmo di Bellman e Ford

Computazione per l interazione naturale: macchine che apprendono

Transcript:

Apprendimento Automatico 232 Apprendimento Bayesiano [Capitolo 6, Mitchell] Teorema di Bayes Ipotesi MAP e ML algoritmi di apprendimento MAP Principio MDL (Minimum description length) Classificatore Ottimo di Bayes Apprendimento Ingenuo di Bayes (Naive Bayes) Richiamo di Reti Bayesiane Algoritmo EM (Expectation Maximization)

Apprendimento Automatico 233 Metodi Bayesiani Forniscono metodi computazionali di apprendimento: Apprendimento Naive Bayes Apprendimento di Reti Bayesiane Combinazione di conoscenza a priori (probabilità a priori) con dati osservati Richiedono probabilità a priori Forniscono un framework concettuale utile Forniscono il gold standard per la valutazione di altri algoritmi di apprendimento Interpretazione del Rasoio di Occam

= probabilità a priori dei dati di apprendimento = probabilità di Apprendimento Automatico 234 Teorema di Bayes = probabilità a priori della ipotesi = probabilità di dati data

Apprendimento Automatico 235 Scelta Ipotesi In generale si vuole selezionare l ipotesi più probabile dati i dati di apprendimento Ipotesi Maximum a posteriori : Se assumiamo scegliere la ipotesi Maximum likelihood (ML) allora si può ulteriormente semplificare, e

Apprendimento Automatico 236 Apprendimento Bruta Forza dell ipotesi MAP 1. Per ogni ipotesi in, calcola la probabilità a posteriori 2. Restituisci l ipotesi con la probabilità a posteriori più alta

Apprendimento Automatico 237 Interpretazione Find-S Si consideri l apprendimento di concetti (funzioni booleane) delle istanze, delle ipotesi, esempi di apprendimento spazio si consideri l algoritmo FIND-S (restituisce l ipotesi più specifica del version space ) Quale sarebbe l ipotesi MAP? Corrisponde a quella restituita da FIND-S?

Assumiamo essere l insieme dei valori desiderati Scegliamo Apprendimento Automatico 238 Interpretazione Find-S Assumiamo di fissare le istanze :

Assumiamo essere l insieme dei valori desiderati Scegliamo Apprendimento Automatico 239 Interpretazione Find-S Assumiamo di fissare le istanze, altrimenti : se è consistente con Scegliamo essere la distribuzione uniforme per tutte le in (per FIND-S, definire se ) Allora, se èconsistente con altrimenti

Apprendimento Automatico 240 Evoluzione delle probabilità a posteriori P( h ) P(h D1) P(h D1, D2) ipotesi ipotesi ipotesi ( a) ( b) ( c)

Apprendimento Automatico 241 Apprendimento di una Funzione a Valori Reali y Si consideri una qualunque funzione target a f valori reali, esempi di apprendimento dove presenta del rumore, h ML e è una variabile random (rumore) estratta x indipendente per ogni secondo una distribuzione Gaussiana con media 0 Allora l ipotesi è quella che minimizza:

Apprendimento Automatico 242 Apprendimento di una Funzione a Valori Reali che si tratta meglio massimizzando il logaritmo naturale...

Apprendimento Automatico 243 ln

è 1 o 0 Apprendimento Automatico 244 Apprendere Probabilità Si consideri il problema di predire la probabilità di sopravvivenza di un paziente malato Esempi di apprendimento, dove Si vuole allenare una rete neurale a restituire in output la probabilità dato In questo caso si può mostrare che (non uno 0 o 1) ln ln Regola di apprendimento per i pesi di una unità sigmoidale: dove

Esempio: Apprendimento Automatico 245 Principio MDL (Minimum Description Length) Rasoio di Occam: preferire l ipotesi più semplice MDL: preferire l ipotesi che minimizza = alberi di decisione, è # bit per descrivere dove è la lunghezza di descrizione di sotto la codifica = etichette di allenamento è # bit per descrivere l albero dato Notare che Basta descrivere solo le eccezioni se gli esempi sono classificati perfettamente da. Quindi cerca un compromesso fra dimensione albero e numero errori

Apprendimento Automatico 246 Principio MDL (Minimum Description Length) Dalla Teoria dell Informazione: Il codice ottimo (il codice con lunghezza aspettata pi ù corta) per un evento con probabilità Pertanto: è bit. preferire l ipotesi che minimizza è la lunghezza di usando un codice ottimo è la lunghezza di dato usando un codice ottimo

Finora abbiamo cercato l ipotesi più probabile dati i dati Apprendimento Automatico 247 Classificazione pìu probabile di nuove istanze (cioè, ) Data una nuova istanza, qual è la classificazione più probabile? non è la calssificazione più probabile! Consideriamo: tre possibili ipotesi: data una nuova istanza, qual è la classificazione più probabile per?

Apprendimento Automatico 248 Classificatore Ottimo di Bayes Classificazione Ottima di Bayes: Esempio: pertanto e

Apprendimento Automatico 249 Classificatore di Gibbs Il classificatore ottimo di Bayes può essere molto costoso da calcolare se ci sono molte ipotesi Algoritmo di Gibbs: 1. Scegliere una ipotesi a caso, secondo 2. Usarla per classificare la nuova istanza Fatto sorprendente: assumiamo che i concetti target siano estratti casualmente da secondo una probabilità a priori su. Allora: Supponendo distribuzione a priori uniforme su ipotesi corrette in, Seleziona una qualunque ipotesi da VS, con probabilità uniforme Il suo errore aspettato non è peggiore del doppio dell errore ottimo di Bayes

Apprendimento Automatico 250 Classificatore Naive di Bayes Una delle tecniche più semplici e popolari Quando usarlo: - insiemi di dati di dimensione abbastanza grande - gli attributi che descrivono le istanze sono condizionalmente indipendenti data la classificazione Applicazioni su cui ha avuto successo: Diagnosi Classificazione di documenti testuali

Apprendimento Automatico 251 Classificatore Naive di Bayes Il valore pi ù probabile di Funzione target, con istanze è: descritte da attributi. assunzione Naive di Bayes: che definisce il Classificatore Naive di Bayes:

Apprendimento Automatico 252 Algoritmo Naive di Bayes Naive Bayes Learn( ) For each valore target stima For each valore di attributo di ogni attributo stima Classify New Instance( )

Apprendimento Automatico 253 Naive Bayes: Esempio Consideriamo il problema Giocare a Tennis, e la nuova istanza Vogliamo calcolare:

Apprendimento Automatico 254 E la giornata ideale per giocare a Tennis? Giocare a Tennis!! Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No

Apprendimento Automatico 255 Naive Bayes: Esempio Consideriamo il problema Giocare a Tennis, e la nuova istanza Vogliamo calcolare:

Apprendimento Automatico 256 Naive Bayes: Considerazioni Aggiuntive 1. L assunzione di indipendenza condizionale è spesso violata...ma sembra funzionare comunque. Notare che non è necessario stimare correttamente la probabilità a posteriori ; è sufficiente che la probabilità a posteriori calcolata da Naive Bayes è spesso vicina a 1 o 0 anche se non dovrebbe

Apprendimento Automatico 257 Naive Bayes: Considerazioni Aggiuntive 2. cosa succede se nessun esempio di apprendimento con valore di target possiede valore di attributo? In tal caso, e... Una soluzione tipica è la stima Bayesiana per dove è il numero di esempi di apprendimento per cui, numero di esempi per cui e è la stima a priori per è il peso dato a priori (cioè il numero di esempi virtuali )

Apprendimento Automatico 258 Esempio di applicazione: classificazione di documenti testuali apprendere quali documenti sono di interesse apprendere a classificare pagine web per argomento... Il classificatore Naive di Bayes costituisce una delle tecniche più utilizzate in questi contesti Quali attributi usare per rappresentare documenti testuali?

Apprendimento Automatico 259 Classificazione di documenti testuali Concetto target 1. Rappresentare ogni documento tramite un vettore di parole Un attributo per posizione di parola nel documento 2. Apprendimento: usare gli esempi di apprendimento per stimare,,, Assunzione di indipendenza condizionale di Naive Bayes dove è la probabilità che la parola in posizionesia, dato Una assunzione addizionale:

2. calcolare (stimare) i termini Apprendimento Automatico 260 LEARN NAIVE BAYES TEXT( ) 1. collezionare tutte le parole ed altri token che occorrono in tutte le parole distinte ed altri token in e for each valore di target in do sottoinsieme di per cui il valore di target è un unico documento creato concatenando tutti i documenti in numero di parole e token totali in volte) (contando parole e token duplicati pi ù for each parola e token in occorre in numero di volte che

tutte le posizioni in Apprendimento Automatico 261 CLASSIFY NAIVE BAYES TEXT( ) che contengono token trovati nel Restituisci, dove

Apprendimento Automatico 262 Reti Bayesiane: richiamo Perchè sono interessanti: Naive Bayes usa una assunzione di indipendenza condizionale troppo restrittiva...ma se non si usa una assunzione di tale tipo il problema è intrattabile... le Reti Bayesiane descrivono l indipendenza condizionale tra sottoinsiemi di variabili permettono di combinare conoscenza a priori sulla (in)dipendenza fra variabili con dati osservati (esempi di apprendimento)

Definizione: dato Apprendimento Automatico 263 Indipendenza Condizionale: richiamo è condizionalmente indipendente da di probabilità che governa se la distribuzione è indipendente dal valore di dato il valore di ; cioè, se in modo compatto, scriveremo Esempio: è condizionalmente indipendente da, dato Naive Bayes usa l indipendenza condizionale per giustificare

Apprendimento Automatico 264 Esempio di Rete Bayesiana Storm BusTourGroup S,B S, B S,B S, B Lightning Campfire C C 0.4 0.6 0.1 0.9 0.8 0.2 0.2 0.8 Campfire Thunder ForestFire la rete rappresenta un insieme di asserzioni di indipendenza condizionale: ogni nodo è asserito essere condizionalmente indipendente dai suoi non-discendenti, dati i suoi genitori grafo diretto aciclico

Apprendimento Automatico 265 Reti Bayesiane Storm BusTourGroup S,B S, B S,B S, B Lightning Campfire C C 0.4 0.6 0.1 0.9 0.8 0.2 0.2 0.8 Campfire Thunder ForestFire rappresenta in generale, quindi, la distribuzione congiunta è totalmente specificata dal grafo e dalle

Apprendimento Automatico 266 Inferenza nelle Reti Bayesiane Come inferire la distribuzione di probabilità sui valori che una o più variabili possono assumere, dati alcuni valori osservati per altre variabili? Reti Bayesiane contengono tutta l informazione per esguire tale inferenza (rappresentano la probabilità congiunta) Se si ha una sola variabile con valore sconosciuto, è facile rispondere Nel caso più generale, l inferenza è un problema NP arduo In pratica metodi esatti di inferenza polinomiali se la rete è un poli-albero metodi Monte Carlo simulano stocasticamente la rete per calcolare soluzioni approssimate

Apprendimento Automatico 267 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono fornire dati per tutte le variabili della rete, o solo per alcune Se si conosce la struttura e tutte le variabili sono osservabili allora l allenamento è in sostanza equivalente a quello del classificatore Naive di Bayes

approccio Maximum Likehood (ML): massimizzare Apprendimento Automatico 268 Cenni di apprendimento in Reti Bayesiane Supponiamo che la struttura sia nota e le variabili parzialmente osservabili per esempio, si hanno dati per ForestFire, Storm, BusTourGroup, Thunder, ma non per Lightning, Campfire... situazione simile al caso di reti neurali con unità nascoste: unità di output osservabili, unità nascoste non osservabili in effetti si possono apprendere le tabelle di probabilità condizionale per le variabili non osservabili tramite ascesa di gradiente

Come al solito è più semplice massimizzare ln Apprendimento Automatico 269 Ascesa di Gradiente ML Denotiamo con la variabile nella rete una generica entry della tabella di probabilità condizionale per la lista di valori) ad esempio, se, allora potrebbe essere

e ln ln Apprendimento Automatico 270 Calcolo del gradiente: ln (esempi estratti indipendentemente) regola del prodotto Poiché gradiente è non nullo, solo il termine della sommatoria per cui il

ln Per il teorema di Bayes abbiamo ln Apprendimento Automatico 271 e quindi

Apprendimento Automatico 272 Ascesa di Gradiente ML Eseguire ascesa di gradiente ripetendo le seguenti operazioni 1. aggiornare tutti i usando i dati di apprendimento : 2. poi, normalizzare i in modo da assicurare

Apprendimento Automatico 273 Ancora sull Apprendimento di Reti Bayesiane Si può usare anche l algoritmo Expectation Maximization (EM) Ripetere: 1. Calcolare le probabilità di variabili non osservabili, assumendo corrente 2. Calcolare nuovi ln (cioè una nuova ipotesi calcolate) di variabili non osservabili, dove ) che massimizzano include ora sia i dati osservati che (le probabilità Se la struttura non è conosciuta... algoritmi basati su ricerca greedy per aggiungere/togliere archi e nodi

Apprendimento Automatico 274 Algoritmo Expectation Maximization (EM) Quando usarlo: dati solo parzialmente osservabili clustering non supervisionato (valore target non osservabile) apprendimento supervisionato (alcuni attributi con valori mancanti) Alcuni esempi: apprendimento Reti Bayesiane AUTOCLASS: clustering non supervisionato apprendimento di Modelli Markoviani Nascosti (Hidden Markov Models)

Apprendimento Automatico 275 Cerchiamo di capire EM con un esempio... p(x) Ogni istanza generata 1. scegliendo una delle Gaussiane con probabilità uniforme 2. generando una istanza a caso secondo la Gaussiana scelta x

Apprendimento Automatico 276 EM per stimare medie Date: istanze da medie per tutte le Gaussiane) non si sa quale istanza Determinare: generate da una mistura distribuzioni Gaussiane sconosciute dellegaussiane ( è stata generata da quale Gaussiana conosciuto ed uguale stime maximum likelihood di ogni istanza può essere pensata nella forma (caso ), dove è 1 se è generata dalla -esima Gaussiana osservabile non osservabile

Apprendimento Automatico 277 EM per stimare medie Algoritmo EM: scegliere a caso l ipotesi iniziale, poi ripetere passo E: calcola il valore aspettato valga l ipotesi corrente di ogni variabile non osservabile, assumendo che passo M: calcola la nuova ipotesi maximum likelihood preso da ogni variabile non osservabile sopra). Rimpiazza con sia il suo valore aspettato., assumendo che il valore (calcolato

Apprendimento Automatico 278 Algoritmo EM Converge alla ipotesi non osservabili locale (massimo locale) fornendo stime per le variabili Di fatto, trova un massimo locale di ln, dove rappresenta tutti i dati (variabili osservabili e non) il valore aspettato è preso sui possibili valori di variabili non osservabili in

Apprendimento Automatico 279 Problema EM in generale Dati: dati osservati dati non osservabili distribuzione di probabilità parametrizzata, dove è tutto l insieme dei dati sono i parametri Determinare: che massimizza (localmente) ln

Apprendimento Automatico 280 Metodo EM Generale Definire la funzione di verosimiglianza (likelihood) che calcola usando i dati osservati ed i parametri correnti per stimare ln Algoritmo EM: passo di stima (E): calcolare osservati per stimare la distribuzione di probabilità su usando l ipotesi corrente ed i dati ln passo di massimizzazione (M): rimpiazza l ipotesi tramite l ipotesi massimizza la funzione che