4.5 Metodo del gradiente

Documenti analoghi
Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano

Capitolo 3: Ottimizzazione non vincolata parte II. E. Amaldi DEI, Politecnico di Milano

5.6 Metodo di penalità e metodo basato sulle funzioni lagrangiane aumentate

4.8 Metodi quasi-newton

5.6 Metodo di penalità e metodo basato sulle funzioni lagrangiane aumentate. min f(x) s.v. c i (x) 0 i I c i (x) = 0 i E (1) x R n

3.7 Metodi quasi-newton

5.5 Programmazione quadratica (PQ)

(a) Si proponga una formulazione di programmazione nonlineare a variabili misto-intere per problema.

Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di

2. Metodi di discesa

Metodi di Ricerca Lineare

Progr. Non Lineare: algoritmi

Cenni sui metodi iterativi per sistemi lineari. Analisi Numerica Prof. M. Lucia Sampoli a.a. 2014/2015

9 Generalità sugli algoritmi di ottimizzazione

Metodi di Iterazione Funzionale

Capitolo 4: Ottimizzazione non lineare non vincolata

Equazioni non lineari: esempi. Risoluzione f (x) = 0 con x [a,b] R, f C([a,b]).

Laboratorio di Calcolo Numerico

Equazioni e sistemi non lineari

Claudio Estatico Equazioni non-lineari

Metodi Numerici con elementi di Programmazione (A.A )

Equazioni e sistemi non lineari

Capitolo 2: Preliminari ed elementi di analisi convessa. E. Amaldi DEIB, Politecnico di Milano

Il metodo del gradiente coniugato

ESAME di OTTIMIZZAZIONE - Compito A Corso di Laurea in Ingegneria Gestionale 2 o anno

Corso di Analisi Numerica

UNIVERSITÀ DEGLI STUDI DI GENOVA

4.4 Programmazione quadratica

Metodi Numerici con elementi di Programmazione (A.A )

Corso di Calcolo Numerico

Calcolo Numerico con elementi di programmazione

Metodi Numerici per l Approssimazione degli Zeri di una Funzione

Metodi numerici per zeri di funzioni

Metodi per il calcolo degli zeri di funzioni non lineari

La determinazione delle radici in forma chiusa non è sempre possibile (già per polinomi di ordine 5 non è generalmente possibile).

Ottimizzazione numerica

LEZIONE ICO

Metodi Numerici Prova di Laboratorio Esami del Stefano Gualandi

Metodi Numerici con elementi di Programmazione (A.A )

Daniela Lera A.A

Calcolo Numerico Laurea di base in Ingegneria Elettronica e delle Telecomunicazioni

Metodi iterativi SISTEMI LINEARI. Metodi Iterativi. Metodo di rilassamento successivo e metodi del gradiente

Analisi cinematica di meccanismi articolati

Corso di Geometria e Algebra Lineare - Sezione di Metodi Numerici

Note sulle funzioni convesse/concave

Risoluzione di sistemi lineari sparsi e di grandi dimensioni

Algoritmi del gradiente e del gradiente coniugato per la risoluzione di sistemi lineari

Corso di Robotica 1 Cinematica inversa

Il Metodo di Newton, o delle Tangenti Federico Lastaria, Analisi e Geometria 1. Politecnico di Milano Corso di Analisi e Geometria 1

Facoltá di Scienze MM.FF.NN. Corso di Studi in Informatica- A.A

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

La miglior approssimazione esiste se le funzioni descrivono un chiuso

TEMI D ESAME DI ANALISI MATEMATICA I

data una funzione f, non lineare calcolare le soluzioni dell equazione f(x) = 0 in un intervallo [a,b]

Gli argomenti denotati con un asterisco tra parentesi (e solo quelli) sono stati dimostrati.

Calcolo Numerico con elementi di programmazione

Ottimizzazione Non Vincolata

Problemi di ottimizzazione non vincolata

5.5.6 Convergenza del metodo del simplesso

Equazioni e sistemi non lineari

8 Metodi iterativi per la risoluzione di sistemi lineari

SQP (Sequential Quadratic Programming ) La soluzione del problema min f o (x) g i (x) = 0, i I

dati due vettori di lunghezza, rispettivamente, a, b e l angolo α tra essi, la loro distanza euclidea al quadrato è pari a: a 2 +b 2 2abcos(α).

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a

Geometria A. Università degli Studi di Trento Corso di laurea in Matematica A.A. 2017/ Febbraio 2018 Appello di Febbraio

COMPLEMENTI DI RICERCA OPERATIVA

Gli argomenti denotati con un asterisco tra parentesi (e solo quelli) sono stati dimostrati.

Università degli Studi di Roma La Sapienza

Daniela Lera A.A

Università di Foggia - Facoltà di Economia. Prova scritta di Matematica Generale - Vecchio Ordinamento - 04 giugno 2002

Metodi iterativi per sistemi lineari

Prova scritta di Geometria - 16 Gennaio 2019

Metodi per la ricerca degli zeri

Corso di Analisi Numerica - AN410. Parte 3: metodi iterativi per sistemi lineari ed. equazioni nonlineari. Roberto Ferretti

ESAME di OTTIMIZZAZIONE - Compito A (bianco) Corso di Laurea in Ingegneria Gestionale 2 o anno

Esame di Analisi Matematica Prova scritta del 9 giugno 2009

ESERCIZI DI ANALISI FUNZIONALE. T(f) = g(x)f(x)dx

ESAME di OTTIMIZZAZIONE Corso di Laurea Magistrale in Ingegneria Gestionale 1 o anno

ESAME di OTTIMIZZAZIONE - Compito A Corso di Laurea in Ingegneria Gestionale 2 o anno

Ottimizzazione. in unione corso con. Ottimizzazione Discreta e Complementi di R.O. Edoardo Amaldi. DEIB Politecnico di Milano

CALCOLO NUMERICO Laurea di base in Ingegneria Elettronica, delle Comunicazioni

OTTIMIZZAZIONE in unione con COMPLEMENTI DI RICERCA OPERATIVA

Esercizi su estremi vincolati e assoluti

Algebra Lineare Metodi Iterativi

7.9 Il caso vincolato: vincoli di disuguaglianza

OTTIMIZZAZIONE in unione con COMPLEMENTI DI RICERCA OPERATIVA OTTIMIZZAZIONE DISCRETA

Problemi di Calcolo Numerico

OTTIMIZZAZIONE in unione con OTTIMIZZAZIONE DISCRETA e COMPLEMENTI DI RICERCA OPERATIVA

Equazioni e sistemi non lineari

Polinomio di Taylor del secondo ordine per funzioni di due variabili

Metodi iterativi per equazioni non lineari

FM210 - Fisica Matematica I

Corso di Analisi Numerica - AN1. Parte 3: metodi iterativi per sistemi lineari ed. equazioni nonlineari. Roberto Ferretti

25 - Funzioni di più Variabili Introduzione

Equazioni non lineari

Metodi Numerici (A.A ) Prof. F. Pitolli

3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI

Dipartimento di Matematica Corso di laurea in Matematica Compiti di Geometria II assegnati da dicembre 2000 a dicembre 2003

Transcript:

4.5 Metodo del gradiente Si cerca un punto stazionario di f : R n R con f C 1. Metodo del gradiente con ricerca 1-D esatta: Scegliere x 0, porre k := 0 Iterazione: d k := f(x k ) Determinare α k > 0 tale che min α 0 φ(α) = f(x k +αd k ) x k+1 := x k +α k d k k := k +1 Criteri di arresto: f(x k ) < ε o f(x k ) f(x k+1 ) < ε o x k+1 x k < ε. Proprietà: Se ricerca 1-D esatta, le direzioni successive sono ortogonali. Poiché α k tale che min α 0 φ(α) = f(x k +αd k ), φ (α k ) = t f(x k +α k d k )d k = t f(x k+1 )d k = 0. e quindi d t k+1 d k = t f(x k+1 )d k = 0. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 1 / 12

0 0.5 1 1.5 2 2.5 3 3 2.5 2 1.5 1 0.5 0 Esempio: traiettoria a zig zag, convergenza molto lenta Consideriamo prima le proprietà di convergenza per le funzioni quadratiche strettamente convesse. Caso importante perché qualsiasi funzione C 2 può essere bene approssimata intorno ad un minimo locale/globale da una funzione quadratica. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 2 / 12

Funzioni quadratiche strettamente convesse: con Q simmetrica e definita positiva. f(x) = 1 2 xt Qx b t x Minimo globale è l unica soluzione di f(x) = Qx b = 0 (quindi di Qx = b) e α k può essere determinato esplicitamente: φ(α) = f(x k α f(x k )) = 1 2 (x k α f(x k ))t Q(x k α f(x k )) b t (x k α f(x k )) φ (α) = t f(x k )Q(x k α f(x k ))+b t f(x k ) = 0 Visto che t xf(x k ) = x t k Q bt implica b t = t f(x k )+x t k Q quindi e in termini di d k : t f(x k )Qx k +α t f(x k )Q f(x k )+( t f(x k )+x t k Q) f(x k ) = 0 α k = t f(x k ) f(x k ) t f(x k )Q f(x k ) α k = dt k d k d t k Qd. k Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 3 / 12

Rapidità di convergenza Spesso si considera la rapidità di convergenza con la quale f(x k ) f(x ) invece di x k x 0 quando k. Proposizione: Se H(x ) definita positiva, x k converge (super)linearmente ad x rispetto a f(x k ) f(x ) se e solo se converge nello stesso modo rispetto a x k x. Infatti, vicino a x f(x) f(x )+ 1 2 (x x ) t H(x )(x x ) e intorno N(x ) tale che λ 1 x x 2 f(x) f(x ) λ n x x 2 x N(x ) con λ 1 = λ 1 ε > 0 e λ n = λ n +ε, dove ε > 0 e 0 < λ 1... λ n sono gli autovalori di H(x ). N.B.: In generale non esiste un equivalenza (e.g. funzioni non ovunque C 1 ) ma vale per funzioni quadratiche strettamente convesse. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 4 / 12

Funzioni quadratiche strettamente convesse: Sia f(x) = 1 2 xt Qx b t x e la norma pesata x 2 Q := x t Qx. Poiché Qx = b, 1 2 x x 2 Q = 1 2 (x x ) t Q(x x ) = 1 2 xt Qx + 1 2 x t Qx x t Qx = f(x) f(x ) Teorema: Se il metodo del gradiente con ottimizzazione 1-D esatta viene applicato ad f C 2 quadratica strettamente convessa, {x k } x per qualsiasi x 0 e x k+1 x 2 λn λ1 Q ( ) 2 x λ n +λ k x 2 Q 1 dove 0 < λ 1... λ n sono gli autovalori di Q. Dim.: Risultato di convergenza globale (Zoutendijk) + Si applica la disuguaglianza di Kantorovich: Se Q definita positiva (con λ 1 e λ n minimo e massimo autovalore), per ogni x 0 si ha (x t x) 2 (x t Qx)(x t Q 1 x) 4λnλ1 (λ n +λ 1) 2. Se λ 1 = λ n (Q = γi e curve di livello = cerchi), metodo converge in una iterazione. Aikake ha mostrato che questo limite superiore è raggiunto per certe scelte di x 0. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 5 / 12

Il tasso di convergenza dipende dal numero di condizionamento κ = λn λ 1 di Q: λn λ1 r = ( ) = ( κ 1 λ n +λ 1 κ+1 ) r è tanto più piccolo quanto κ è vicino ad 1; se lo spettro di Q è molto ampio allora κ 1 e r 1. Funzioni non lineari generiche: Teorema: Se f C 2 e metodo del gradiente con ricerca 1-D esatta converge a x con H(x ) definita positiva, allora f(x k+1 ) f(x λn λ1 ) ( ) 2 [f(x λ n +λ k ) f(x )] 1 dove 0 < λ 1... λ n sono gli autovalori di H(x ). In genere non ci si può aspettare convergenza migliore con ricerca 1-D inesatta. Determinare α k che minimizza φ(α) può non essere la scelta migliore, bisognerebbe cercare di estrarre informazioni del 2 o ordine su f(x). Esempio: per f quadratica strettamente convessa, α k = 1/λ k+1 porta a x in al più n passi! Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 6 / 12

4.6 Metodo di Newton Siano f C 2 e H(x) = 2 f(x). Consideriamo l approssimazione quadratica intorno a x k : q k (x) := f(x k )+ t f(x k )(x x k )+ 1 2 (x x k )t H(x k )(x x k ) e scegliamo come x k+1 un suo punto stazionario ( xq k (x) = 0), ovvero tale che f(x k )+H(x k )(x k+1 x k ) = 0. Se H(x k ) non singolare, H 1 (x k ) esiste e x k+1 := x k H 1 (x k ) f(x k ). Se H(x k ) è definita positiva, allora f C 2 implica H 1 (x) definita positiva su N(x k ) e l iterazione è ben-definita in N(x k ), altrimenti direzione potrebbe non essere di discesa. Nel metodo di Newton puro α k = 1 per ogni k. Se f è una funzione quadratica strettamente convessa, il minimo globale si trova in un unica iterazione. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 7 / 12

Proprietà: Metodo invariante rispetto a cambio di coordinate affine non singolare (esercizio 6.5) Osservazione: Per funzioni generiche convergenza locale molto rapida, ma non globale! Esempio: min x R f(x) = exp( x 2 ) con minimo globale x = 0 e f (x) = 2x exp( x 2 ) 2 1 0 1 2 3 f(x) x 2 1 0 1 2 3 f (x) x 0 x 2 x 1 2 2 x 0 x 1 x 2... x 3 2 1 0 1 2 3 3 2 1 0 1 2 3 Se 0.2 x 0 0.2, {x k } k N converge a x = 0. Se x 0 > 1, {x k } k N diverge. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 8 / 12

Interpretazione alternativa del metodo di Newton (caso 1-D): f(x) C 2 e si cerca x tale che f (x) = 0. Metodo delle tangenti (Newton-Raphson) per determinare gli zeri di una funzione: All iterazione k, f (x) approssimata con la tangente in x k z = f (x k )+f (x k )(x x k ) x k+1 corrisponde all intersezione con asse di x: x k+1 = x k f (x k ) f (x k ). Caso n-d: Si determina un punto stazionario di f risolvendo il sistema non lineare f(x) = 0 mediante il metodo di Newton-Raphson. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 9 / 12

Teorema: Supponiamo f C 2 e x tale che f(x ) = 0 e H(x ) definita positiva e H(x) H(y) L x y x,y N(x ) allora, per x 0 sufficientemente vicino al minimo locale x, i) {x k } x con rapidità di convergenza quadratica, ii) { f(x k ) } 0 quando k quadraticamente. Svantaggi: Se H(x k ) è singolare il passo non è ben-definito. Se H 1 (x k ) non è definita positiva, la direzione di Newton può non essere di discesa per f. Anche se la direzione è di discesa il passo α k = 1 potrebbe aumentare il valore di f. Calcolo di H 1 (x k ) ad ogni iterazione ( complessità O(n 3 ) ). Convergenza solo locale: se x 0 non è abbastanza vicino al minimo locale la successione {x k } può non convergere. Poiché il metodo converge a partire da un intorno di un qualsiasi punto stazionario in cui 2 f(x k ) non è singolare, può convergere verso massimi locali. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 10 / 12

Modifiche del metodo di Newton 1) Se il passo α k = 1 non soddisfa le condizione di Wolfe (o alternative), si effettua una ricerca unidimensionale approssimata. 2) Per garantire la convergenza globale, si può modificare la direzione di Newton considerando d k = D k f(x k ) con una matrice D k diversa da [ 2 f(x k )] 1. Se D k è simmetrica e definita positiva, d k è una direzione di discesa. Compromesso tra direzioni di massima discesa e di Newton: D k := (ε k I + 2 f(x k )) 1 dove ε k > 0 sono i più piccoli valori tali che gli autovalori di (ε k I + 2 f(x k )) siano δ > 0. Esiste sempre un ε k che rende D k definita positiva. Coincide con metodo puro di Newton quando ci si avvicina ad un minimo locale. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 11 / 12

3) Metodi a passi ristretti ( trust region methods ) Idea: La direzione d k e il passo α k vengono determinati contemporaneamente minimizzando l approssimazione quadratica q k (x) intorno a x k corrente su una regione di confidenza ( trust region ) in cui q k (x) fornisce una buona approssimazione di f(x). Esempio di regione di confidenza: palla di raggio k > 0. Illustrazione: In genere il sottoproblema (per determinare d k e α k ) può essere risolto in forma chiusa o richiede un onere computazionale ridotto. La dimensione della regione di confidenza (e.g., k se palla) viene variata in modo adattativo in base ad una stima della qualità dell approssimazione quadratica sulla regione corrente. Edoardo Amaldi (PoliMI) Ottimizzazione A.A. 2013-14 12 / 12