Algoritmi di minimizzazione EM Mixture models

Transcript

1 Algoritmi di minimizzazione E ixture models I. Frosio AIS Lab. frosio@dsi.unimi.it /58 Overview Stima di due rette (riassunto) inimizzazione: metodi di ordine zero (simplesso, ) inimizzazione: metodi di primo ordine (gradiente, ) inimizzazione: metodi di secondo ordine (ewton, ) inimizzazione: Expectation-aximization ixture models: introduzione oxture models: segmentazione di radiografia cefalometrica /58

2 Stima di due rette (riassunto) Si vogliono stimare i coefficienti angolari di due rette passanti per l origine. I dati misurati yi possono provenire dall una o dall altra retta con la stessa probabilità. Sui dati misurati è presente rumore gaussiano con varianza σ. 3/58 Stima di due rette (riassunto) Scriviamo la funzione di verosimiglianza: p G ( yi) = P G( m xi, σ ) + P G( m xi, σ ) ( μ, σ ) = e πσ In pratica un punto yi può provenire dalla retta con probabilità P o dalla retta con probabilità P. In ciascuno dei due casi il punto misurato ha una distribuzione gaussiana centrata sulla retta stessa. x μ σ 4/58

3 Stima di due rette (riassunto) Calcolo il logaritmo negativo della verosimiglianza: f ( m, m) = ln p( yi) = p i= ln ( xi, σ ) i= [ ] = ln[ P G( m xi, σ ) + P G( m xi, σ )] [ P p ( xi, σ ) + P p ( xi, σ )] = e πσ i= x m xi σ on può essere minimizzato analiticamente ponendo le derivate uguali a zero è necessario usare un algoritmo di minimizzazione iterativo. 5/58 inimizzazione: metodi di ordine 0 Strategia di base: Sia f(x) la funzione da minimizzare, x 0 la soluzione di partenza; La soluzione viene perturbata (x k+ =x k +Δx) in modo più meno furbo, testando diverse perturbazioni Δx. Per ogni perturbazione Δx si calcola la f(x k +Δx). Si sceglie la Δx tale per cui la f(x k +Δx) è minima e si aggiorna la soluzione (x k+ =x k +Δx). Esempi: metodo del simplesso, simulated annealing, algoritmi genetici Se si utilizza un metodo di ordine 0 è necessario calcolare la sola f(x). Facile da implementare, bassa velocità di convergenza. 6/58 3

4 f(x) inimizzazione: metodi di ordine 0 f(x 0 ) Soluzioni perturbate x 0 x 7/58 f(x) inimizzazione: metodi di ordine 0 f(x 0 ) Soluzione scelta al passo 0 f(x ) x 0 x x 8/58 4

5 inimizzazione: metodi di ordine Strategia di base: Sia f(x) la funzione da minimizzare, x 0 la soluzione di partenza; Si calcoli il gradiente della f in x k, J(x k ). La soluzione viene aggiornata utilizzando l informazione del gradiente. ell ipotesi più semplice (metodo del gradiente), muovendosi nella direzione opposta rispetto al gradiente (x k+ =x k -α J(x k ).) Esempi: metodo del gradiente, gradiente coniugato, Se si utilizza un metodo di ordine è necessario calcolare la f(x) e J(x). Abbastanza facile da implementare, velocità di convergenza media (dipende dalla strategia adottata). Il parametro scalare α (learning rate) determina la velocità di convergenza e la stabilità del metodo. 9/58 f(x) inimizzazione: metodi di ordine Gradiente, J(x 0 ) f(x 0 ) x 0 x 0/58 5

6 f(x) inimizzazione: metodi di ordine Gradiente, J(x 0 ) f(x 0 ) αj(x 0 ) f(x ) x 0 x x /58 inimizzazione: metodi di ordine el caso del problema delle due rette abbiamo già calcolato le derivate (si veda la lezione precedente). Utilizzando il metodo del gradiente, la soluzione può essere aggiornata come: m ( m, m ) k + k f k = m α = m α m i= P p ( xi) p ( ) ( x m xi ) xi σ xi (Esercizio implementazione atlab del metodo del gradiente confronto con E per vari valori di α) /58 6

7 inimizzazione: metodi di ordine Strategia di base: Sia f(x) la funzione da minimizzare, x 0 la soluzione di partenza; L espansione in serie di Taylor arrestata al ordine di f(x) è la seguente: f(x k +Δx)=f(x k )+J(x k ) (Δx)+/(Δx) T H(x k )(Δx), dove H(x k ) è l Hessiano di f. L espansione in serie di Taylor dà un approssimazione locale della f(x). E possibile minimizzare analiticamente tale approssimazione; il minimo si ottiene derivando e ponendo la derivata uguale a zero (metodo di ewton): J(x k )+H(x k )(Δx)=0 Δx = -H(x k ) - J(x k ) E oneroso calcolare l hessiano, velocità di convergenza alta. 3/58 inimizzazione: metodi di ordine f(x) f(x 0 ) Approssimazione con serie di Taylor della f(x) x 0 x 4/58 7

8 inimizzazione: metodi di ordine f(x) f(x 0 ) Approssimazione con serie di Taylor della f(x) f(x ) x 0 5/58 x x inimizzazione metodi iterativi (riassunto) Quando la funzione da minimizzare è fortemente non lineare, è necessario ricorrere ad un metodo iterativo. Si fanno delle ipotesi sull andamento locale della f(x) e si aggiorna la soluzione x in modo da garantire che la f(x) decresca, fino al raggiungimento di un minimo locale. I metodi di ordine 0 utilizzano il calcolo della sola f(x) per studiarne l andamento locale e scegliere l aggiornamento della soluzione facili da implementare, lenti nella convergenza. I metodi di ordine utilizzano anche il gradiente per studiare l andamento locale della soluzione discretamente complessi, velocità di convergenza media. I metodi di ordine utilizzano anche l hessiano per descrivere con maggior cura l andamento locale della soluzione (funzione surrogato ) e minimizzano ad ogni iterazione la funzione surrogato invece della f(x) il calcolo dell hessiano è complesso, velocità di convergenza alta. 6/58 8

9 inimizzazione: Expectation- aximization Expectation-aximization: un algoritmo di massimizzazione della verosimiglianza per modelli con variabili latenti. Si consideri un problema di massimizzazione della verosimiglianza (es. stima delle due rette). Tale problema ha una formulazione complessa, ma Se vengono inserite alcune variabili nascoste nel modello, la formulazione matematica del problema può essere semplificata. 7/58 inimizzazione: Expectation- aximization Sia θ il vettore dei parametri del modello da stimare; Scriviamo la verosimiglianza del problema introducendo delle variabili nascoste, Z, oltre alle variabili misurate, Y: ln [ p( Y θ )] ln p( Y, Z θ ) = Z 8/58 9

10 inimizzazione: Expectation- aximization el caso della stima delle due rette Cosa succederebbe se ci fosse data l appartenenza di una misura yi all una o all altra retta? In tal caso il problema si ridurrebbe a due semplici problemi di stima di retta ai minimi quadrati. Per formulare E, introduciamo delle variabili nascoste Z che descrivono l appartenenza di una misura yi alla retta o alla retta. 9/58 inimizzazione: Expectation- aximization Dal momento che le variabili nascoste non sono note, devono essere stimate a partire dai dati. Utilizzando il teorema di Bayes, e considerando un vettore di parametri stimato θ, possiamo stimare le probabilità delle Z, p(z Y, θ ). 0/58 0

11 inimizzazione: Expectation- aximization Stimiamo le variabili nascoste per il problema di stima delle due rette. Dal teorema di Bayes: Probabilità che sia stata la retta J- esima a generare il dato y p ( J y) Probabilità del dato y quando generato dalla componente J = p ( y J ) p( J ) p( y) Probabilità della componente J Probabilità del dato y /58 inimizzazione: Expectation- aximization Specificando per nostro caso: p ( J yi) = P p p ( yi) P ( yi) + P p ( yi) La p( yi) descrive il grado di appartenenza del dato yi alla retta. All iterazione k-esima, può essere calcolato con i parametri m, m dell iterazione stessa. /58

12 inimizzazione: Expectation- aximization Ciò consente di costruire la funzione di Expectation, che verrà massimizzata ad ogni passo si richiede di massimizzare la media su Z della funzione di verosimiglianza: aximization θ Q = arg maxθ Q( θ, θ ) ( θ, θ ) = { p( Z Y, θ ) ln[ p( Y, Z θ )]} Z Expectation 3/58 inimizzazione: Expectation- aximization Scriviamo il passo di maximization per il problema di stima delle due rette: Q( θ, θ ) = { p( Z Y, θ ) ln[ p( Y, Z θ )]} Z { p( Z Y, m, m ) ln[ p( Y, Z m, m) ]} Z Costante, calcolata nella fase di Expectation K(yi,) 4/58

13 inimizzazione: Expectation- aximization Q = = = i= = i= = i= = k k k ( yi, ) ln p ( yi) [ ] = k( yi, ) i= = ( yi, ) ln + k( yi, ) πσ πσ i= = σ ( yi, ) ln k( yi, ) ( yi m xi) i= = yi m xi σ ln e = πσ yi m xi = σ 5/58 inimizzazione: Expectation- aximization Cerchiamo allora il massimo di Q (aximization) per avere l aggiornamento della soluzione: Q = m m i = 0 σ m = σ m = σ = σ i= i= = = i= i= = πσ k( yi, ) ln k( yi, ) ( yi m xi) k( yi, ) ( yi m xi) k( yi, ) ( yi m xi) k( yi, ) ( yi m xi) ( xi) k( yi, ) ( yi m xi) ( xi) = σ = = i= = = 6/58 3

14 inimizzazione: Expectation- aximization Ponendo la derivata di Q uguale a zero Q = k( yi, ) ( yi m xi) ( xi) = 0 m k( yi, ) ( yi m xi) ( xi) i= k( yi, ) ( yi xi) m k( yi, ) ( xi ) i= m = σ k( yi, ) ( yi xi) i= k( yi, ) ( xi ) i= i= i= = 0 = 0 Otteniamo le equazioni di aggiornamento per i parametri del modello secondo E. 7/58 inimizzazione: Expectation- aximization Analizzando la funzione di aggiornamento per E m i= = k i= ( yi, ) ( yi xi) k ( yi, ) ( xi ) I parametri vengono aggiornati secondo uno schema ai minimi quadrati pesati dai fattori k(yi,) che descrivono l appartenenza di un dato alla retta o alla retta. Vedere anche codice atlab 8/58 4

15 inimizzazione: Expectation- aximization Discorso al limite per interpretare E Si assegna un punto alla retta o alla retta sulla base della distanza dalle due rette (expectation); Si risolvono i due problemi di stima ai minimi quadrati (facili! - maximization); Si itera fino a convergenza ell E reale l assegnazione è soft invece che hard. Vedere anche codice atlab 9/58 inimizzazione: Expectation- aximization 30/58 5

16 inimizzazione: Expectation- aximization 3/58 inimizzazione: Expectation- aximization 3/58 6

17 inimizzazione: Expectation- aximization (riassunto) La funzione di verosimiglianza può portare ad una minimizzazione complessa; Introducendo delle variabili nascoste Z nel modello la formulazione può essere semplificata; Il valore delle variabili nascoste Z viene calcolato con il teorema di Bayes nella fase di costruzione della funzione di Expectation; el passo di aximization, si massimizza la media su Z della verosimiglianza. 33/58 inimizzazione: Expectation- aximization (riassunto e ) Derivazione rigorosa di E: el passo di expectation si costruisce un lower bound per la funzione di verosimiglianza (upper bound per Log(L)); el passo di maximization si massimizza il lower bound; Per approfondire: Cristopher. Bishop, Pattern Recognition and achine Learning, Capitolo /58 7

18 inimizzazione: Expectation- aximization (riassunto e ) f(x) Funzione di expectation Q f(x 0 ) [upper bound di f(x)] aximization step f(x ) x x 0 35/58 x ixture models: introduzione La funzione di verosimiglianza permette di stimare i parametri incogniti di una distribuzione (es. media e varianza di una gaussiana); ei casi reali, la densità di probabilità può essere complessa a piacere; In particolare, si può considerare una combinazione lineare (mixture) di variabili casuali mixture models 36/58 8

19 ixture models: introduzione In un mixture model, la d.d.p. complessiva è la combinazione lineare di d.d.p. di base. Probabilità del dato x nella J-esima distribuzione ddp complessiva p( x) = = = p θ ( x ) P( ) P( ) = ; 0 <= P( ) <= ; Probabilità che il dato x provenga dalla J-esima distribuzione p θ ( x ) = 37/58 ixture models: introduzione (incognite) p( x) = p ( x = θ ) P( ) Dati La d.d.p. complessiva, p(x), viene misurata. La forma delle d.d.p. di base, p q (x ), viene scelta a priori (es. gaussiana). Incognite I parametri θ di ogni d.d.p. di base, p θ (x ), devono essere stimati. Le probabilità per ogni d.d.p. di base, P(), devono essere stimate. 38/58 9

20 ixture models: introduzione Per la stima del vettore dei parametri θ viene utilizzato L approccio alla massima verosimiglianza. ixture model: p(x) = Σ =.. p θ (x ) P() Likelihood function: L = L (θ) = p(x θ) p(x θ) p(x D θ); egative log likelihood function: E = E (θ) = -log(l) = -Σ i=..d log [p(x i θ)] = = Σ i=..d log [Σ =.. p θ (x i )P()] 39/58 ixture models: introduzione (riassunto) ixture models: una combinazione lineare di densità di probabilità utilizzata per descrivere la densità di probabilità degli elementi di un vettore di dati misurato. Le incognite sono i parametri di ogni ddp del mixture e la probabilità di ogni singola componente del mixture. I parametri vengono calcolati massimizzando la funzione di verosimiglianza. 40/58 0

21 ixture models: segmentazione I(x,y) immagine Row x Col, 8 bit (56 livelli di grigio g); Hist( ) istogramma, 56 componenti; Hist(g) # pixel t.c. I(x,y)=g; Hist(g) / (Row * Col) = p(g). ddp Solo 4 livelli di grigio I(x,y) Hist(g) = #pixel 4/58 g ixture models: segmentazione Background Bone tissue Bone tissue Soft tissue Soft tissue Background Istogramma tipico immagine radiografica cefalometrica p(g) easured histogram Background Soft tissue 4/58 Bone tissue g

22 ixture models: segmentazione p(g) easured histogram Background Soft tissue Bone tissue g Livelli di grigio diversi identificano tessuti diversi (soglia segmentazione). 43/58 ixture models: segmentazione p(g) easured histogram Soft tissue Bone tissue g Pixel classificati erroneamente 44/58

23 ixture models: segmentazione L istogramma di una radiografia cefalometrica è composto da tre componenti principali; Il problema di segmentazione dell immagine si presta ad essere trattato con un approccio tipo mixture model; Ogni componente del mixture model sarà responsabile rispettivamente della generazione dei dati relativi a background, soft tissue e bone tissue; assimizzazione della verosimiglianza: E (massimizzazione di lower bound). 45/58 ixture models: segmentazione Funzione da minimizzare (incognita θ): E = ln n n ( L) = ln pϑ ( x ) = ln pϑ ( x ) n= n= E Per ogni iterazione, i parametri vengono aggiornati (, indice θ omesso): E = n= ln p ( ) ( ) ( ) n n n p x x ln p x = ln n n= n= p ( x ) 46/58 3

24 E ixture models: segmentazione ( ) ( ) ( ) n = n n p x E ln p x ln p x = ln n n= n= n= p ( x ) Ricordando che: p ( x) = P( ) p( x ) = Si ottiene: E E = ln P n ( ) p ( x ) n p ( x ) P n = = P n ( x ) n ( x ) 47/58 ixture models: segmentazione La disuguaglianza di Jensen dice che: dati λ t. c. λ = ln λ K = ln λ K = = = λ ln ( K ) = λ ln ( K ) 48/58 4

25 ixture models: segmentazione = n λ = P ( x ) =, n = Jensen ixture model E possibile applicare la disuguaglianza di Jensen ai mixture model, ove i P ( x n ) giocano il ruolo dei λ. 49/58 ixture models: segmentazione Applicando Jensen: ln = λ K = λ ln ( K ) E E = ln P n ( ) p ( x ) n p ( x ) P n= = P n ( x ) n ( x ) 50/58 5

26 ixture models: segmentazione E E = ln P n ( ) p ( x ) n p ( x ) P n= = P n ( x ) n ( x ) P n n P ( ) ( ) p ( x ) x ln n n p ( x ) P ( x ) = 5/58 E ixture models: segmentazione E n n n P ( ) ( ) p ( x ) x ln n n p ( x ) P ( x ) P = = E E + Q inimizzando Q si minimizza E! P (x n ), P ( x n ) costanti dunque Q = Q (θ )! 5/58 6

27 ~ Q ixture models: segmentazione Eliminando i termini costanti () nella somma (! trasf. Logaritmica!), è sufficiente minimizzare ad ogni iterazione: = = P n= = P Tenendo inoltre conto del fatto che: n ( x ) =, n n n ( x ) ln{ P ( ) p ( x ) } 53/58 ixture models: segmentazione Si minimizza allora (metodo dei moltiplicatori di Lagrange): ~ f = Q + ψ P = Vincolo Cioè: f = 0 μ f = 0 σ f = 0 P ( ) f = 0 (vincolo) A.A. ψ ( ) 54/58 Da questo sistema possono essere ricavate le equazioni per l aggiornamento dei parametri del mixture model ad ogni iterazione. 7

28 ixture models: segmentazione Aggiornamento P(): P n ( ) = P ( x ) n= el caso di ddp gaussiane: n n P ( x ) x n= μ = ( σ ) n P ( x ) n= P n= = n= n n ( x )( x μ ) P n ( x ) 55/58 ixture models: segmentazione 56/58 8

29 Risultato (bone tissue) Clusterizzazione immagine in 3 zone (background, soft tissue, bone tissue). 57/58 Bibliografia Cristopher. Bishop, Pattern Recognition and achine Learning, Capitolo.3.9 (mixture di gaussiane), Capitolo 9., 9., 9.3 (K-means, mixture models, E). I. Frosio, G. Ferrigno,. A. Borghese, Enhancing Digital Cephalic Radiography with ixture odel and Local Gamma Correction, IEEE Transaction on edical Imaging, Vol. 5, o., Jan. 006, pp. 3- (mixture models e radiografia cefalometrica). Poul Erik Frandsen, Kristian Jonasson, Hans Bruun ielsen, Ole Tingleff, Unconstrained Optimization, disponibile in rete, algoritmi di minimizzazione (approfondimento). Cristopher. Bishop, Pattern Recognition and achine Learning, Capitolo 9.4, E come minimizzazione di un lower bound (approfondimento). 58/58 9

30 59/58 30