Inferenza esatta sui parametri (I e II)

Modelli di computazione affettiva e comportamentale Data: 19 e 21 Maggio 2010 Inferenza esatta sui parametri (I e II) Docente: Prof. Giuseppe Boccignone Scriba: Lorenzo Genta 1 Introduzione ai diversi approcci Abbiamo fino ad ora esplorato il primo livello dell inferenza su variabili (1) dando per scontato di conoscere e H. P (x y,, H) P (y x, H, ) P (y x, H, ) (1) Prendendo in considerazione i parametri possiamo considerarli come fossero costanti (come mostrato in figura 1 A): questo si rappresenta disegnando un puntino sotto ai parametri costanti. Un altro modo per rappresentare una situazione di questo tipo è rappresentato in figura 1 B, dove rappresentiamo anche il valore del parametro. Figura 1: Graphical Model dove il parametro é rappresentato come una costante Possiamo altresì considerare come fosse una variabile osservata (fig. 2 A): in questo caso abbiamo che le X 1...X n sono indipendenti in quanto il nodo osservato (in configurazione tail-to-tail), per le proprietá di indipendenza condizionale; divide il grafo; possiamo quindi scrivere P ( N X ) P (X i ). Si noti come il caso (A) rappresenta la tibica situazione contemplata in un setting frequentistico, dove i campioni X i sono considerati indipendenti e identicamente distribuiti (i.i.d). Utilizzando un approccio bayesiano è invece possibile, piú in generale considerare come una variabile aleatoria anch essa, come mostrato in figura 2 B ed espresso nella formula 2. Notare che la soluzione a questo problema è classificata come problema di learning (il nostro obiettivo diventa apprendere i parametri), ma i1 1

2 Inferenza esatta sui parametri (I e II) in un setting Bayesiano tale problema é ricondotto ad un problema di inferenza. Figura 2: Graphical Model dove il parametro é rappresentato come una variabile aleatoria, osservata (A) o non osservata (B) P ( x) P (x )P () P (x )P () (2) 2 L approccio classico: stima di massima verosimiglianza (Maximum Likelihood) Analizziamo un caso semplice, basandoci sulla distribuzione di Bernoulli, per tentare di inferire i parametri : consideriamo il lancio di una moneta. In questo caso già conosciamo la distribuzione di probabilità P (x ) Bern(x; ). Lo spazio degli eventi è Ω SUCCESSO, INSUCCESSO e la funzione di probabilità su tale spazio è data dalla 3. P (ω) { 1 se ω SUCCESSO 0 se ω INSUCCESSO x (1 ) 1 x (3) dove ω Ω e è la probabilità che la variabile aleatoria X sia un successo. Quindi sappiamo che: [0, 1] E[X] x [0,1] x P (x ) E[X] 0 P (x 0 ) + 1 P (x 1 ) var[x] E[X 2 ] (E[X]) 2 (4) Una volta stimata la variabile la considero come fosse osservata. Quindi X 1...X n (che chiameremo D per Dati) diventano indipendenti. Da questo procedo con i calcoli:

Inferenza esatta sui parametri (I e II) 3 P (D ) N P (x i ) i1 N xi (1 ) 1 xi (5) i1 questa viene chiamata funzione di verosimiglianza (rispetto al parametro ) che rappresenteremo con L(, x). Ora cerco quel tale che mi massimizzi la funzione di verosimiglianza (nei calcoli seguenti considereremo N X x i ) i1 N N N x i (1 x i ) xi (1 ) 1 xi i1 (1 ) i1 i1 X (1 ) N X L(; x) (6) Ora definisco l(; x) log L(; x) x log + (N X) log(1 ) come log-verosimiglianza. Se cerchiamo il che massimizza questa funzione otteniamo uno stimatore ottimo. l x 1 (N X) 1 1 x 1 X N 0 0 (N X) N i1 N x i 1 1 (7) Al termine del calcolo troviamo che lo stimatore di massima verosimiglianza risulta proprio essere la media campionaria. Il problema fondamentale di questo approccio può essere spiegato con il paradosso classico dell induzione: ipotizzando tre lanci di una moneta nei quali si ottenga come risultato T, T, T la stima del parametro sarebbe ˆ 3 3 1. In pratica deduco da un campione troppo ridotto un valore statisticamente ingiustificato della certezza di ottenere testa in un lancio della moneta. Questo è spiegabile anche mediante il paradosso del cigno nero: se osservo 3 cigni bianchi, posso assumere che tutti i cigni siano bianchi? (esiste una particolare razza di cigni neri in Africa...) 3 L approccio Bayesiano Mediante un approccio di tipo Bayesiano trattiamo il parametro come se fosse una variabile aleatoria:

4 Inferenza esatta sui parametri (I e II) P ( x) P (x ) p() P (x ) P ()d (8) Ora non stiamo più stimando il parametro ma stiamo cercando la distribuzione di probabilità che lo rappresenta. La P ( x) rappresenta la probabilità a posteriori su. Infine, nell ambito della teoria delle decisioni, cercheremo un criterio di scelta della basandoci sulla sua distribuzione di probabilità(valore a massima probabilità, media...). Ora procediamo esplicitando le distribuzioni conosciute: P ( x) P (x ) p() P (x ) P ()d ( N ) x x (1 ) N x P () ( ) N x (1 ) N x P ()d x x (1 ) N x 1 x (1 ) N x 1 d (9) Il problema si riscontra nel passaggio segnato dal simbolo *: come definire P ()? Abbiamo tre possibili approcci: 1. Non sapendo nulla considero la possibilità che ogni valore sia equiprobabile associando quindi la probabilità di ad una distribuzione uniforme. 2. Posso considerare la distribuzione coniugata alla distribuzione P (x ) 3. Nel caso in cui si abbiano informazioni precise in merito alla distribuzione di P (), (per esempio dovute alla natura dello specifico problema modellato) posso applicarla direttamente all interno della formula. In questo svolgimento abbiamo scelto l approccio descritto al punto 1 (come evidenziato nei valori contrassegnati da **) ed abbiamo infatti rappresentato la P () come distribuzione uniforme: questo approccio è noto anche come Let the data speak : non avendo informazioni sufficienti ipotizzo un valore neutro. 3.1 La distribuzione Beta Presentiamo ora brevemente una distribuzione di probabilità molto utilizzata specialmente in ambito bayesiano. La distribuzione Beta nasce dalla funzione omonima B(a, b) 1 a 1 (1 ) b 1 d ed ha la seguente forma: Beta(; a, b) Γ(a + b) Γ(a) + Γ(b) a 1 (1 ) b 1 (10)

Inferenza esatta sui parametri (I e II) 5 Eguagliando ora i parametri a b con la distribuzione da noi trovata otteniamo x a 1 N x b 1 a x + 1 b N x + 1 (11) La distribuzione del nostro parametro risulta quindi essere una distribuzione di Beta. A questo punto dovremmo trovare i valori per gli iperparametri a e b: questi due iperparametri riflettono le condizioni empiriche sui dati. Vi sono alcune tecniche empiriche per stimarli anche su pochi dati quindi nel nostro modello grafico (figura 3) saranno considerati come parametri e non come variabili aleatorie. Figura 3: Modello grafico Bayesiano della distribuzione Beta-Binomiale 3.2 Analisi dei risultati ottenuti Utilizzando la distribuzione 10 per calcolare la P ( D) otteniamo:

6 Inferenza esatta sui parametri (I e II) P ( D) 1 0 1 0 ( N ) x x (1 ) N x ( ) N x (1 ) N x x x (1 ) N x a 1 (1 ) b 1 x (1 ) N x a 1 (1 ) b 1 d Γ(a+b) Γ(a)+Γ(b) a 1 (1 ) b 1 Γ(a + b) Γ(a) + Γ(b) a 1 (1 ) b 1 d a+x 1 (1 ) N x+b 1 1 a + x 1 N x + b 1 }{{}}{{} α β (1 ) d 0 } {{ } Integrale noto: funzione Beta Γ(α + β) Γ(α) Γ(β) α 1 (1 ) β 1 Γ(a + x + N x + b) Γ(a + x) Γ(N x + b) a+x 1 (1 ) N x+b 1 Γ(a + N + b) Γ(a + x) Γ(N x + b) a+x 1 (1 ) N x+b 1 (12) Mentre la distribuzione 10 era il nostro modello di probabilità a priori, la distribuzione 12 è la nostra probabilità a posteriori, nuovamente una beta con parametri modificati: più precisamente si può notare che si sta andando ad incrementare ad a i successi ed a b gli insuccessi. Questo mostra chiaramente la situazione sulle mie credenze a priori (10) e quelle a posteriori(12): se su 10 lanci di una moneta ottengo 5 croci si incrementano allo stesso modo a e b non variando la forma della distribuzione. Se invece ottenessi dei dati contraddittori la forma della mia distribuzione Beta cambierebbe adattando il mio modello iniziale ai risultati empirici. Un altro fatto interessante da notare è che tutto questo processo può essere eseguito interamente ONLINE, ovvero passo dopo passo durante l osservazione dei dati: P ( D) t+1 1 0 P (D ) P ()t P (D ) P ()d (13) Le tecniche utilizzabili online hanno una grande importanza per via della possibilità di utilizzarle in real time: le tecniche bayesiane sono il modo migliore per avere un approccio online. 3.3 Scelta di un valore per Vi sono diversi approcci per la scelta del valore migliore da utilizzare per il parametro. Il punto di partenza é la teoria generale delle decisioni: Funzione di costo(massimizzo) {}}{ R(x) }{{} α, L(, α(x)) P (, α) Funzione di rischio (minimizzo)

Inferenza esatta sui parametri (I e II) 7 Si puó mostrare che per casi specifici della funzione di costo ottengo le seguenti regole di decisione, tipicamente utilizzate: Regole MAP (Maximum A Posteriori): ˆ argmax (P ( D)) Medie a posteriori: E[ D] P ( D)d 3.3.1 Approccio tramite MAP Procediamo cercando il massimo della nostra distribuzione: Beta(; α, β) ˆ 1 {}}{ k [(α 1) α 2 (1 ) β 1 α 1 (β 2)(1 ) β 1 ] 0 α 1 α + β 2 a + x 1 a + x + N x + b 2 a + x 1 a + N + b 2 (14) Notiamo che nel caso in cui a 1 e b 1 abbiamo ˆ MAP x N ˆ ML quindi ˆ argmax(p ( D)) argmax P (D ) ˆ ML. Il metodo di massima verosimiglianza risulta quindi essere un caso particolare dell approccio bayesiano. 3.3.2 Approccio tramite media Proviamo ora ad utilizzare la media come nuovo valore di. E[ D] ˆ MEAN P ( D)d α α + β a + x a + x + N x + b a + x a + N + b (15) Nell ipotesi fatta precedentemente (a 1, b 1), ipotizzando che il risultato di tipo TESTA sia un successo, abbiamo ˆ MEAN x + 1 N + 2 N teste + 1 N teste + N croci + 2 (16) Questo è (in questo caso specifico) uguale alla regola di successione di Laplace: supponendo di ottenere 3 teste in 3 lanci consecutivi avremmo: 1 Fattore di normalizzazione

8 Inferenza esatta sui parametri (I e II) P (T esta) 4 4/5 (17) 5 Appare chiaramente che in questo caso è stato tenuto conto nei calcoli dell insufficienza dei dati: non diamo più un valore di probabilità 1 all evento osservato bensì gli associamo una probabilità molto alta (più corretto). 4 Valutazione delle ipotesi - inferenza sui modelli L ultimo punto da analizzare, per quanto riguarda l approccio bayesiano, è l inferenza sui modelli: P (H 0 x) P (x H 0) P (H 0 ) P (x) P (H 1 x) P (x H 1) P (H 1 ) P (x) (18) (19) Valuto la probabilità di un modello dato un campione analizzato. Successivamente posso scommettere su di un modello piuttosto che su di un altro P (H 0 x) P (H 1 x) P (x H 0) P (H 0) P (x) P (x H 1) P (H 1) P (x) P (x H 0 ) P (x H 1 ) P (x, H0 ) P ( H 0 )d P (x, H1 ) P ( H 1 )d (20) Nel passaggio contrassegnato da * abbiamo dato la stessa probabilità a priori al modello H 0 ed al modello H 1. La funzione 20 in alcuni casi può essere calcolata in forma chiusa, quando questo non è possibile è necessario adottare tecniche più complesse. Se il rapporto dato dalla 20 risultasse > 1 avremmo che il modello H 0 è più preciso per rappresentare i nostri dati, altrimenti sarebbe preferibile il modello H 1.