Teoria delle Decisioni Bayesiana

Documenti analoghi
VARIABILI ALEATORIE CONTINUE

Statistica inferenziale

Tecniche di analisi multivariata

DISTRIBUZIONI DI PROBABILITÀ

Richiami di teoria della probabilitá e Modelli Grafici

Analisi discriminante

Feature Selection per la Classificazione

Generazione di Numeri Casuali- Parte 2

Laboratorio 2. Calcolo simbolico, successioni, limiti e derivate

Note su quicksort per ASD (DRAFT)

Esercizi di Calcolo delle Probabilità con Elementi di Statistica Matematica

Problemi di localizzazione impianti

Tutorato di Probabilità e Statistica

Modello Black-Scholes

2) Codici univocamente decifrabili e codici a prefisso.

CORSO DI LAUREA IN SCIENZE DELLA FORMAZIONE PRIMARIA

CORSO DI LAUREA IN SCIENZE DELLA FORMAZIONE PRIMARIA

Teoria della probabilità Assiomi e teoremi

VALORE PIÙ CONVENIENTE DEL RENDIMENTO

La teoria dell utilità attesa

Tecniche di riconoscimento statistico

Computazione per l interazione naturale: macchine che apprendono

Bontà dei dati in ingresso

Probabilità e Statistica Esercitazioni. a.a. 2006/2007

Esercitazioni di statistica

DESCRIZIONE CREAZIONE APP Si suddivide in 4 fasi di lavoro: 1. PIANIFICAZIONE; 2. PROGETTAZIONE; 3. SVILUPPO; 4. DISTRIBUZIONE.

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Università di Milano Bicocca. Esercitazione 6 di Matematica per la Finanza. 14 Maggio 2015

XVIII Rapporto AlmaLaurea sul Profilo e la Condizione occupazionale dei laureati UNIVERSITA E LAVORO, UN PAESE A DUE VELOCITA

1 Valore atteso o media

TECNICHE DI SIMULAZIONE

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

1 Serie di Taylor di una funzione

Selezione di un portafoglio di titoli in presenza di rischio. Testo

EQUAZIONI DIFFERENZIALI Esercizi svolti. y = xy. y(2) = 1.

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Corso di Automazione Industriale 1. Capitolo 4

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

Microeconomia per la Finanza - Esercitazione 3 Bayesian updating

Teoria delle scorte. Ricerca operativa Met. e mod. per le decisioni (Informatica Matematica) Pierluigi Amodio

L indagine statistica

Informatica Teorica. Macchine a registri

Valutazione dell accordo spaziale fra carte di vulnerabilità degli acquiferi

I Problemi e la loro Soluzione. Il Concetto Intuitivo di Calcolatore. Risoluzione di un Problema. Esempio

Introduzione al Pattern Recognition Statistico

Francesca Pierri Dipartimento di Economia Finanza e Statistica Università degli Studi di Perugia

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Teoria delle Decisioni. Lezioni 1 e 2 a.a J. Mortera, Università Roma Tre mortera@uniroma3.it

Computazione per l interazione naturale: Modelli dinamici

1.5. ISTOGRAMMA 17. Figura 1.3: Istogramma ottenuto mediante campionamento da VA Gaussiana (η x =0, σ 2 X =1).

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Le stringhe. Le stringhe

Corso di Laurea Ingegneria Informatica Fondamenti di Informatica

Analisi Statistica Spaziale

Capitolo 5: Ottimizzazione Discreta. E. Amaldi DEI, Politecnico di Milano

ESERCITAZIONE 5 SOLUZIONE:

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Funzioni di più variabili

Metodi statistici in genetica forense terza edizione

ELEMENTI DI CALCOLO DELLE PROBABILITA

Corso di Politica Economica

Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo

1 Modelli di variabili aleatorie continue

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA

Metodologie Quantitative

STRATEGIA DI TRADING. Semplice, Immediata e senza Rischi. Sito internet

Esercitazioni di Reti Logiche. Lezione 1 Rappresentazione dell'informazione. Zeynep KIZILTAN zkiziltan@deis.unibo.it

Appunti di Sistemi Elettronici

I costi di produzione

MATLAB. Caratteristiche. Dati. Esempio di programma MATLAB. a = [1 2 3; 4 5 6; 7 8 9]; b = [1 2 3] ; c = a*b; c

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Esercitazione n o 3 per il corso di Ricerca Operativa

Calcolo delle Probabilita, INGEGNERIA INFORMATICA, semestre II, laurea (ord. Leonardo.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

I costi d impresa (R. Frank, Capitolo 10)

Algoritmi e Strutture Dati II: Parte B Anno Accademico Lezione 11

Esponenziali e logaritmi

1. la probabilità che siano tutte state uccise con pistole; 2. la probabilità che nessuna sia stata uccisa con pistole;

Online Gradient Descent

La selezione binaria

FISICA Corso di laurea in Informatica e Informatica applicata

La distribuzione Gaussiana

Domande a scelta multipla 1

Testing: basato su analisi dinamica del codice. Metodi Formali: basato su analisi statica del codice.

Testi del Syllabus MACHINE LEARNING FOR PATTERN RECOGNITION (2st MODULE) Corso di studio: Anno regolamento:

Liceo Scientifico " C. CATTANEO " PIANO DI LAVORO DI INFORMATICA. CLASSE 3 LSA SEZ. B e D

Steering User Behavior with Badges

Analisi della redditività, effetto leva e creazione di valore

INDICAZIONI PER LA RICERCA DEGLI ASINTOTI VERTICALI

Un applicazione della programmazione lineare ai problemi di trasporto

Appunti: elementi di Probabilità

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

della funzione obiettivo. Questo punto dovrebbe risultare chiaro se consideriamo una generica funzione:

Capitolo 7: Teoria generale della calcolabilitá

Esperimento sull ottica

Lezioni di Economia Politica

Progetto di Reti di Telecomunicazione Modelli in Programmazione Lineare Problemi di Localizzazione

CERTIFICAZIONE ENERGETICA DEGLI EDIFICI Regione Lombardia

Capitolo 7 TEST DELLE IPOTESI

Transcript:

Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 14 gennaio 2009

Sommario Introduzione Teoria delle decisioni Bayesiana - nel continuo Classificazione a Minimo Tasso d Errore (Minimum-Error-Rate) Classificatori, funzioni discriminanti e superfici di decisione Teoria delle decisioni Bayesiana - nel discreto

Introduzione I Esempio branzino/salmone Stato di natura, probabilità a priori Lo stato di natura è una variabile aleatoria La pesca di salmone o branzino è equiprobabile: P(ω 1 ) = P(ω 2 ) P(ω 1 ) + P(ω 2 ) = 1 probabilità a priori uniforme esclusività ed esaustività

Introduzione II Regola di decisione con la sola informazione delle probabilità a priori: Se P(ω 1 ) > P(ω 2 ) allora decidi per ω 1 altrimenti decidi per ω 2 Usare l informazione condizionale sulle classe Sia X una variabile aleatoria che misura il peso P(x ω 1 ) e P(x ω 2 ) descrivono la differente leggerezza tra le due popolazioni di pesci

Introduzione III

Probabilità a posteriori, verosimilianza, evidenza I P(ω j x) = }{{} p. a posteriori verosimilianza {}}{ P(x ω j ) p. a priori {}}{ P(ω j ) P(x) }{{} evidenza P(x) meno importante di P(ω j x) e P(ω j ) In caso di c categorie P(x) = c P(x ω j )P(ω j ) j=1

Probabilità a posteriori, verosimilianza, evidenza II

Errore I La decisione è conseguenza dalle probabilità a posteriori X è un osservazione per la quale: se P(ω 1 x) > P(ω 2 x) stato di natura reale = ω 1 se P(ω 1 x) < P(ω 2 x) stato di natura reale = ω 2 Pertanto: quando si osserva una particolare x, la probabilità d errore è: P(error x) = P(ω 1 x) decidendo per ω 2 P(error x) = P(ω 2 x) decidendo per ω 1

Errore II Minimizzare la probabilità d errore Se P(ω 1 x) > P(ω 2 x) allora decidi per ω 1 altrimenti per ω 2 Vale anche in media: P(errore) = P(errore, x)dx = P(errore x)p(x)dx Pertanto: P(errore x) = min{p(ω 1 x), P(ω 2 x)} (regola di decisione Bayesiana)

Nel caso del continuo I Generalizzazione delle idee precedenti: Usare più d una feature Usare più di due stati di natura Permettere azioni non decidere solo per lo stato di natura Permettere altre azioni oltre alla classificazione permette anche la possibilità di rigetto Rifiutare di prendere una decisione in casi difficili o cattivi! Introdurre una loss function più generale della probabilità d errore La loss function stabilisce il costo di ogni azione intrapresa

Nel caso del continuo II Sia {ω 1, ω 2,..., ω c } l insieme di c stati di natura ( categorie ) Sia {α 1, α 2,..., α a } l insieme delle azioni possibili Sia λ(α i ω j ) il costo dell azione α i quando lo stato di natura è ω j

Nel caso del continuo III Rischio globale R si ottiene sommando R(α i x) per i = 1,..., a }{{} rischio condizionato R = R(α(x) x)p(x)dx Minimizzare R Minimizzare R(α i x) per i = 1,..., a R(α i x) = c λ(α i ω j )P(ω j x) j=1 i = 1,..., a Selezionare l azione α i per la quale R(α i x) sia minima R minimale (rischio di Bayes, miglior performance ottenibile)

Classificazione binaria I α 1 : decidere per ω 1 α 2 : decidere per ω 2 λij = λ(αi ωj) costo della decisione per ω i quando il vero stato di natura è ω j Rischio condizionato: R(α 1 x) = λ 11 P(ω 1 x) + λ 12 P(ω 2 x) R(α 2 x) = λ 21 P(ω 1 x) + λ 22 P(ω 2 x)

Classificazione binaria II La nostra regola è la seguente: Se R(α 1 x) < R(α 2 x) allora si compie l azione α 1 ossia decidi per ω 1 Questo porta alla regola equivalente: decidi per ω 1 se (λ 21 λ 11 )P(x ω 1 )P(ω 1 ) > (λ 12 λ 22 )P(x ω 2 )P(ω 2 ) altrimenti decidi per ω 2

Tasso di verosimiglianza La regola precedente equivale alla seguente: Se P(x ω 1 ) P(x ω 2 ) > (λ 12 λ 22 )P(ω 2 ) (λ 21 λ 11 )P(ω 1 ) allora compi l azione α 1 (decidere per ω 1 ) altrimenti compi l azione α 2 (decidere per ω 2 ) P(x ω 1 ) P(x ω 2 ) likelihood ratio Proprietà della decisione ottimale Se il grado di verosimiglianza eccede una soglia indipendente dall esempio di input x, si possono intraprendere azioni ottimali

Classificazione per minimo tasso d errore I Le azioni sono decisioni sulle classi Se α i viene intrapresa ed il vero stato di natura è ω j allora: la decisione è corretta se i = j ed erronea se i j Si cerca una regola di decisione che minimizza la probabilità d errore che è il tasso d errore Introduzione della loss function zero-uno: { 0 i = j λ(α i, ω j ) = 1 i j

Classificazione per minimo tasso d errore II Perciò, il rischio condizionato è: c R(α i x) = λ(α i, ω j )P(ω j x) j=1 = P(ω j x) = 1 P(ω i x) j i Il rischio corrispondente a questa loss function è la probabilità d errore media Minimizzare il rischio richiede di massimizzare P(ω i x) (dato che R(α i x) = 1 P(ω i x)) Per il minimo tasso d errore: Decidere ω i if P(ω i x) > P(ω j x) j i

Classificazione per minimo tasso d errore III Regioni di decisione e loss function zero-uno Pertanto si ha la regola: Sia (λ 12 λ 22 )P(ω 2 ) (λ 21 λ 11 )P(ω 1 ) = θ λ allora decidere per ω 1 se P(x ω 1) P(x ω 2 ) > θ λ Se λ è la loss function zero-uno che significa: Se λ = Se λ = ( 0 1 1 0 ) allora θ λ = P(ω 2) P(ω 1 ) = θ a ( ) 0 2 allora θ 1 0 λ = 2P(ω 2) P(ω 1 ) = θ b

Classificazione per minimo tasso d errore IV Con una loss function 0/1 o basata sulla classificazione, i limiti di decisione sono determinati da θ a. Se la loss function penalizza la miscategorizzazione di ω 2, si passa a soglie più ampie θ b, e R 1 diventa più piccola

Il caso multi-categorico Insieme di funzioni discriminanti g i (x), i = 1,..., c Il classificatore assegna un vettore x alla classe ω i se: g i (x) > g j (x) j i

Struttura funzionale di un classificatore Un passo successivo determina quale dei valori discriminanti sia il massimo, e assegna la classe di conseguenza

Minimizzazione del rischio Sia g i (x) = R(α i x) La discriminazione massima corrisponde al minimo rischio! Per il minimum error rate, considerare g i (x) = P(ω i x) La discriminazione massima corrisponde alla massima prob. a posteriori! g i (x) P(x ω i )P(ω i ) ossia g i (x) = ln P(x ω i ) + ln P(ω i )

Regioni di decisione I Lo spazio delle feature viene diviso in c regioni di decisione Se g i (x) > g j (x) j i allora x è in R i (R i significa assignare x a ω i ) Caso binario Un classificatore detto dicotomizzatore con due funzioni discriminanti g 1 e g 2 Sia g(x) = g 1 (x) g 2 (x) Decidere per ω 1 se g(x) > 0; altrimenti decidere per ω 2 Calcolo di g(x) g(x) = P(ω 1 x) P(ω 2 x) = ln P(x ω 1) P(x ω 2 ) + ln P(ω 1) P(ω 2 )

Regioni di decisione II

Caso discreto I Le componenti di x sono a valori binari o interi, x prende solo uno degli m valori discreti v 1, v 2,..., v m Caso di features binarie indipendenti nel problema binario Sia x = [x 1, x 2,..., x d ] t dove ogni x i è 0 o 1, con le probabilità: p i = P(x i = 1 ω 1 ) e q i = P(x i = 1 ω 2 )

Caso discreto II La funzione discriminante in tal caso sarà: g(x) = d w i x i + w 0 i=1 dove e w i = ln p i(1 q i ) q i (1 p i ) w 0 = d i=1 i = 1,..., d ln 1 p i + ln P(ω 1) 1 q i P(ω 2 ) Decidere ω 1 se g(x) > 0 e ω 2 se g(x) 0

Credits R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley