4.5 Metodo del gradiente

4.5 Metodo del gradiente Si cerca un punto stazionario di f : R n R con f C 1. Metodo del gradiente con ricerca 1-D esatta: Scegliere x 0, porre k := 0 Iterazione: d k := f(x k ) Determinare α k > 0 tale che min α 0 φ(α) = f(x k +αd k ) x k+1 := x k +α k d k k := k +1 Criteri di arresto: f(x k ) < ε o f(x k ) f(x k+1 ) < ε o x k+1 x k < ε. Proprietà: Se ricerca 1-D esatta, le direzioni successive sono ortogonali. Poiché α k tale che min α 0 φ(α) = f(x k +αd k ), φ (α k ) = t f(x k +α k d k )d k = t f(x k+1 )d k = 0. e quindi d t k+1 d k = t f(x k+1 )d k = 0. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 1 / 12

0 0.5 1 1.5 2 2.5 3 3 2.5 2 1.5 1 0.5 0 Esempio: traiettoria a zig zag, convergenza molto lenta Consideriamo prima le proprietà di convergenza per le funzioni quadratiche strettamente convesse. Caso importante perché qualsiasi funzione C 2 può essere bene approssimata intorno ad un minimo locale/globale da una funzione quadratica. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 2 / 12

Funzioni quadratiche strettamente convesse: con Q simmetrica e definita positiva. f(x) = 1 2 xt Qx b t x Minimo globale è l unica soluzione di f(x) = Qx b = 0 (quindi di Qx = b) e α k può essere determinato esplicitamente: φ(α) = f(x k α f(x k )) = 1 2 (x k α f(x k ))t Q(x k α f(x k )) b t (x k α f(x k )) φ (α) = t f(x k )Q(x k α f(x k ))+b t f(x k ) = 0 Visto che t xf(x k ) = x t k Q bt implica b t = t f(x k )+x t k Q quindi e in termini di d k : t f(x k )Qx k +α t f(x k )Q f(x k )+( t f(x k )+x t k Q) f(x k ) = 0 α k = t f(x k ) f(x k ) t f(x k )Q f(x k ) α k = dt k d k d t k Qd. k Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 3 / 12

Rapidità di convergenza Spesso si considera la rapidità di convergenza con la quale f(x k ) f(x ) invece di x k x 0 quando k. Proposizione: Se H(x ) definita positiva, x k converge (super)linearmente ad x rispetto a f(x k ) f(x ) se e solo se converge nello stesso modo rispetto a x k x. Infatti, vicino a x f(x) f(x )+ 1 2 (x x ) t H(x )(x x ) e intorno N(x ) tale che λ 1 x x 2 f(x) f(x ) λ n x x 2 x N(x ) con λ 1 = λ 1 ε > 0 e λ n = λ n +ε, dove ε > 0 e 0 < λ 1... λ n sono gli autovalori di H(x ). N.B.: In generale non esiste un equivalenza (e.g. funzioni non ovunque C 1 ) ma vale per funzioni quadratiche strettamente convesse. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 4 / 12

Funzioni quadratiche strettamente convesse: Sia f(x) = 1 2 xt Qx b t x e la norma pesata x 2 Q := x t Qx. Poiché Qx = b, 1 2 x x 2 Q = 1 2 (x x ) t Q(x x ) = 1 2 xt Qx + 1 2 x t Qx x t Qx = f(x) f(x ) Teorema: Se il metodo del gradiente con ottimizzazione 1-D esatta viene applicato ad f C 2 quadratica strettamente convessa, {x k } x per qualsiasi x 0 e x k+1 x 2 λn λ1 Q ( ) 2 x λ n +λ k x 2 Q 1 dove 0 < λ 1... λ n sono gli autovalori di Q. Dim.: Risultato di convergenza globale (Zoutendijk) + Si applica la disuguaglianza di Kantorovich: Se Q definita positiva (con λ 1 e λ n minimo e massimo autovalore), per ogni x 0 si ha (x t x) 2 (x t Qx)(x t Q 1 x) 4λnλ1 (λ n +λ 1) 2. Se λ 1 = λ n (Q = γi e curve di livello = cerchi), metodo converge in una iterazione. Aikake ha mostrato che questo limite superiore è raggiunto per certe scelte di x 0. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 5 / 12

Il tasso di convergenza dipende dal numero di condizionamento κ = λn λ 1 di Q: λn λ1 r = ( ) = ( κ 1 λ n +λ 1 κ+1 ) r è tanto più piccolo quanto κ è vicino ad 1; se lo spettro di Q è molto ampio allora κ 1 e r 1. Funzioni non lineari generiche: Teorema: Se f C 2 e metodo del gradiente con ricerca 1-D esatta converge a x con H(x ) definita positiva, allora f(x k+1 ) f(x λn λ1 ) ( ) 2 [f(x λ n +λ k ) f(x )] 1 dove 0 < λ 1... λ n sono gli autovalori di H(x ). In genere non ci si può aspettare convergenza migliore con ricerca 1-D inesatta. Determinare α k che minimizza φ(α) può non essere la scelta migliore, bisognerebbe cercare di estrarre informazioni del 2 o ordine su f(x). Esempio: per f quadratica strettamente convessa, α k = 1/λ k+1 porta a x in al più n passi! Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 6 / 12

4.6 Metodo di Newton Siano f C 2 e H(x) = 2 f(x). Consideriamo l approssimazione quadratica intorno a x k : q k (x) := f(x k )+ t f(x k )(x x k )+ 1 2 (x x k )t H(x k )(x x k ) e scegliamo come x k+1 un suo punto stazionario ( xq k (x) = 0), ovvero tale che f(x k )+H(x k )(x k+1 x k ) = 0. Se H(x k ) non singolare, H 1 (x k ) esiste e x k+1 := x k H 1 (x k ) f(x k ). Se H(x k ) è definita positiva, allora f C 2 implica H 1 (x) definita positiva su N(x k ) e l iterazione è ben-definita in N(x k ), altrimenti direzione potrebbe non essere di discesa. Nel metodo di Newton puro α k = 1 per ogni k. Se f è una funzione quadratica strettamente convessa, il minimo globale si trova in un unica iterazione. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 7 / 12

Proprietà: Metodo invariante rispetto a cambio di coordinate affine non singolare (esercizio 6.5) Osservazione: Per funzioni generiche convergenza locale molto rapida, ma non globale! Esempio: min x R f(x) = exp( x 2 ) con minimo globale x = 0 e f (x) = 2x exp( x 2 ) 2 1 0 1 2 3 f(x) x 2 1 0 1 2 3 f (x) x 0 x 2 x 1 2 2 x 0 x 1 x 2... x 3 2 1 0 1 2 3 3 2 1 0 1 2 3 Se 0.2 x 0 0.2, {x k } k N converge a x = 0. Se x 0 > 1, {x k } k N diverge. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 8 / 12

Interpretazione alternativa del metodo di Newton (caso 1-D): f(x) C 2 e si cerca x tale che f (x) = 0. Metodo delle tangenti (Newton-Raphson) per determinare gli zeri di una funzione: All iterazione k, f (x) approssimata con la tangente in x k z = f (x k )+f (x k )(x x k ) x k+1 corrisponde all intersezione con asse di x: x k+1 = x k f (x k ) f (x k ). Caso n-d: Si determina un punto stazionario di f risolvendo il sistema non lineare f(x) = 0 mediante il metodo di Newton-Raphson. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 9 / 12

Teorema: Supponiamo f C 2 e x tale che f(x ) = 0 e H(x ) definita positiva e H(x) H(y) L x y x,y N(x ) allora, per x 0 sufficientemente vicino al minimo locale x, i) {x k } x con rapidità di convergenza quadratica, ii) { f(x k ) } 0 quando k quadraticamente. Svantaggi: Se H(x k ) è singolare il passo non è ben-definito. Se H 1 (x k ) non è definita positiva, la direzione di Newton può non essere di discesa per f. Anche se la direzione è di discesa il passo α k = 1 potrebbe aumentare il valore di f. Calcolo di H 1 (x k ) ad ogni iterazione ( complessità O(n 3 ) ). Convergenza solo locale: se x 0 non è abbastanza vicino al minimo locale la successione {x k } può non convergere. Poiché il metodo converge a partire da un intorno di un qualsiasi punto stazionario in cui 2 f(x k ) non è singolare, può convergere verso massimi locali. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 10 / 12

Modifiche del metodo di Newton 1) Se il passo α k = 1 non soddisfa le condizione di Wolfe (o alternative), si effettua una ricerca unidimensionale approssimata. 2) Per garantire la convergenza globale, si può modificare la direzione di Newton considerando d k = D k f(x k ) con una matrice D k diversa da [ 2 f(x k )] 1. Se D k è simmetrica e definita positiva, d k è una direzione di discesa. Compromesso tra direzioni di massima discesa e di Newton: D k := (ε k I + 2 f(x k )) 1 dove ε k > 0 sono i più piccoli valori tali che gli autovalori di (ε k I + 2 f(x k )) siano δ > 0. Esiste sempre un ε k che rende D k definita positiva. Coincide con metodo puro di Newton quando ci si avvicina ad un minimo locale. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 11 / 12

3) Metodi a passi ristretti ( trust region methods ) Idea: La direzione d k e il passo α k vengono determinati contemporaneamente minimizzando l approssimazione quadratica q k (x) intorno a x k corrente su una regione di confidenza ( trust region ) in cui q k (x) fornisce una buona approssimazione di f(x). Esempio di regione di confidenza: palla di raggio k > 0. Illustrazione: In genere il sottoproblema (per determinare d k e α k ) può essere risolto in forma chiusa o richiede un onere computazionale ridotto. La dimensione della regione di confidenza (e.g., k se palla) viene variata in modo adattativo in base ad una stima della qualità dell approssimazione quadratica sulla regione corrente. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 12 / 12