Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 14 gennaio 2009
Sommario Introduzione Teoria delle decisioni Bayesiana - nel continuo Classificazione a Minimo Tasso d Errore (Minimum-Error-Rate) Classificatori, funzioni discriminanti e superfici di decisione Teoria delle decisioni Bayesiana - nel discreto
Introduzione I Esempio branzino/salmone Stato di natura, probabilità a priori Lo stato di natura è una variabile aleatoria La pesca di salmone o branzino è equiprobabile: P(ω 1 ) = P(ω 2 ) P(ω 1 ) + P(ω 2 ) = 1 probabilità a priori uniforme esclusività ed esaustività
Introduzione II Regola di decisione con la sola informazione delle probabilità a priori: Se P(ω 1 ) > P(ω 2 ) allora decidi per ω 1 altrimenti decidi per ω 2 Usare l informazione condizionale sulle classe Sia X una variabile aleatoria che misura il peso P(x ω 1 ) e P(x ω 2 ) descrivono la differente leggerezza tra le due popolazioni di pesci
Introduzione III
Probabilità a posteriori, verosimilianza, evidenza I P(ω j x) = }{{} p. a posteriori verosimilianza {}}{ P(x ω j ) p. a priori {}}{ P(ω j ) P(x) }{{} evidenza P(x) meno importante di P(ω j x) e P(ω j ) In caso di c categorie P(x) = c P(x ω j )P(ω j ) j=1
Probabilità a posteriori, verosimilianza, evidenza II
Errore I La decisione è conseguenza dalle probabilità a posteriori X è un osservazione per la quale: se P(ω 1 x) > P(ω 2 x) stato di natura reale = ω 1 se P(ω 1 x) < P(ω 2 x) stato di natura reale = ω 2 Pertanto: quando si osserva una particolare x, la probabilità d errore è: P(error x) = P(ω 1 x) decidendo per ω 2 P(error x) = P(ω 2 x) decidendo per ω 1
Errore II Minimizzare la probabilità d errore Se P(ω 1 x) > P(ω 2 x) allora decidi per ω 1 altrimenti per ω 2 Vale anche in media: P(errore) = P(errore, x)dx = P(errore x)p(x)dx Pertanto: P(errore x) = min{p(ω 1 x), P(ω 2 x)} (regola di decisione Bayesiana)
Nel caso del continuo I Generalizzazione delle idee precedenti: Usare più d una feature Usare più di due stati di natura Permettere azioni non decidere solo per lo stato di natura Permettere altre azioni oltre alla classificazione permette anche la possibilità di rigetto Rifiutare di prendere una decisione in casi difficili o cattivi! Introdurre una loss function più generale della probabilità d errore La loss function stabilisce il costo di ogni azione intrapresa
Nel caso del continuo II Sia {ω 1, ω 2,..., ω c } l insieme di c stati di natura ( categorie ) Sia {α 1, α 2,..., α a } l insieme delle azioni possibili Sia λ(α i ω j ) il costo dell azione α i quando lo stato di natura è ω j
Nel caso del continuo III Rischio globale R si ottiene sommando R(α i x) per i = 1,..., a }{{} rischio condizionato R = R(α(x) x)p(x)dx Minimizzare R Minimizzare R(α i x) per i = 1,..., a R(α i x) = c λ(α i ω j )P(ω j x) j=1 i = 1,..., a Selezionare l azione α i per la quale R(α i x) sia minima R minimale (rischio di Bayes, miglior performance ottenibile)
Classificazione binaria I α 1 : decidere per ω 1 α 2 : decidere per ω 2 λij = λ(αi ωj) costo della decisione per ω i quando il vero stato di natura è ω j Rischio condizionato: R(α 1 x) = λ 11 P(ω 1 x) + λ 12 P(ω 2 x) R(α 2 x) = λ 21 P(ω 1 x) + λ 22 P(ω 2 x)
Classificazione binaria II La nostra regola è la seguente: Se R(α 1 x) < R(α 2 x) allora si compie l azione α 1 ossia decidi per ω 1 Questo porta alla regola equivalente: decidi per ω 1 se (λ 21 λ 11 )P(x ω 1 )P(ω 1 ) > (λ 12 λ 22 )P(x ω 2 )P(ω 2 ) altrimenti decidi per ω 2
Tasso di verosimiglianza La regola precedente equivale alla seguente: Se P(x ω 1 ) P(x ω 2 ) > (λ 12 λ 22 )P(ω 2 ) (λ 21 λ 11 )P(ω 1 ) allora compi l azione α 1 (decidere per ω 1 ) altrimenti compi l azione α 2 (decidere per ω 2 ) P(x ω 1 ) P(x ω 2 ) likelihood ratio Proprietà della decisione ottimale Se il grado di verosimiglianza eccede una soglia indipendente dall esempio di input x, si possono intraprendere azioni ottimali
Classificazione per minimo tasso d errore I Le azioni sono decisioni sulle classi Se α i viene intrapresa ed il vero stato di natura è ω j allora: la decisione è corretta se i = j ed erronea se i j Si cerca una regola di decisione che minimizza la probabilità d errore che è il tasso d errore Introduzione della loss function zero-uno: { 0 i = j λ(α i, ω j ) = 1 i j
Classificazione per minimo tasso d errore II Perciò, il rischio condizionato è: c R(α i x) = λ(α i, ω j )P(ω j x) j=1 = P(ω j x) = 1 P(ω i x) j i Il rischio corrispondente a questa loss function è la probabilità d errore media Minimizzare il rischio richiede di massimizzare P(ω i x) (dato che R(α i x) = 1 P(ω i x)) Per il minimo tasso d errore: Decidere ω i if P(ω i x) > P(ω j x) j i
Classificazione per minimo tasso d errore III Regioni di decisione e loss function zero-uno Pertanto si ha la regola: Sia (λ 12 λ 22 )P(ω 2 ) (λ 21 λ 11 )P(ω 1 ) = θ λ allora decidere per ω 1 se P(x ω 1) P(x ω 2 ) > θ λ Se λ è la loss function zero-uno che significa: Se λ = Se λ = ( 0 1 1 0 ) allora θ λ = P(ω 2) P(ω 1 ) = θ a ( ) 0 2 allora θ 1 0 λ = 2P(ω 2) P(ω 1 ) = θ b
Classificazione per minimo tasso d errore IV Con una loss function 0/1 o basata sulla classificazione, i limiti di decisione sono determinati da θ a. Se la loss function penalizza la miscategorizzazione di ω 2, si passa a soglie più ampie θ b, e R 1 diventa più piccola
Il caso multi-categorico Insieme di funzioni discriminanti g i (x), i = 1,..., c Il classificatore assegna un vettore x alla classe ω i se: g i (x) > g j (x) j i
Struttura funzionale di un classificatore Un passo successivo determina quale dei valori discriminanti sia il massimo, e assegna la classe di conseguenza
Minimizzazione del rischio Sia g i (x) = R(α i x) La discriminazione massima corrisponde al minimo rischio! Per il minimum error rate, considerare g i (x) = P(ω i x) La discriminazione massima corrisponde alla massima prob. a posteriori! g i (x) P(x ω i )P(ω i ) ossia g i (x) = ln P(x ω i ) + ln P(ω i )
Regioni di decisione I Lo spazio delle feature viene diviso in c regioni di decisione Se g i (x) > g j (x) j i allora x è in R i (R i significa assignare x a ω i ) Caso binario Un classificatore detto dicotomizzatore con due funzioni discriminanti g 1 e g 2 Sia g(x) = g 1 (x) g 2 (x) Decidere per ω 1 se g(x) > 0; altrimenti decidere per ω 2 Calcolo di g(x) g(x) = P(ω 1 x) P(ω 2 x) = ln P(x ω 1) P(x ω 2 ) + ln P(ω 1) P(ω 2 )
Regioni di decisione II
Caso discreto I Le componenti di x sono a valori binari o interi, x prende solo uno degli m valori discreti v 1, v 2,..., v m Caso di features binarie indipendenti nel problema binario Sia x = [x 1, x 2,..., x d ] t dove ogni x i è 0 o 1, con le probabilità: p i = P(x i = 1 ω 1 ) e q i = P(x i = 1 ω 2 )
Caso discreto II La funzione discriminante in tal caso sarà: g(x) = d w i x i + w 0 i=1 dove e w i = ln p i(1 q i ) q i (1 p i ) w 0 = d i=1 i = 1,..., d ln 1 p i + ln P(ω 1) 1 q i P(ω 2 ) Decidere ω 1 se g(x) > 0 e ω 2 se g(x) 0
Credits R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley