TRE UNIVERSITÀ DEGLI STUDI ROMA 3 DIPARTIMENTO DI MATEMATICA E FISICA CORSO DI LAUREA MAGISTRALE IN MATEMATICA

Transcript

1 ROMA TRE UNIVERSITÀ DEGLI STUDI UNIVERSITÀ DEGLI STUDI ROMA 3 DIPARTIMENTO DI MATEMATICA E FISICA CORSO DI LAUREA MAGISTRALE IN MATEMATICA Tesi di Laurea Magistrale in Matematica Tecniche di Programmazione Dinamica nell ottimizzazione di sistemi di controllo ibridi Candidato Relatore Achille Sassi Prof. Roberto Ferretti Anno Accademico 2011/2012

2 1 Soluzioni viscose 1 Soluzioni viscose Per introdurre il concetto di soluzione viscosa come soluzione debole si considera il problema stazionario nella forma generale H x, vx), vx) ) = 0 x Ω 1.1) dove Ω R d è un insieme aperto e la funzione H : Ω R R d R è detta funzione hamiltoniana del problema. La necessità di definire una soluzione in senso debole nasce dal fatto che il problema 1.1) non ha in generale soluzione in C 1 Ω). Definizione. Sia v una funzione uniformemente continua e limitata su Ω, allora v si dice soluzione viscosa del problema 1.1) se φ C 1 Ω) i) v è una sottosoluzione viscosa, ovvero x Ω punto di massimo locale per v φ vale H x, vx), φx) ) 0 ii) v è una soprasoluzione viscosa, ovvero x Ω punto di minimo locale per v φ vale H x, vx), φx) ) 0 Il punto cruciale nella teoria delle soluzioni viscose è dimostrarne l unicità, tale risultato si può ottenere tramite un principio del confronto o del massimo). Proposizione 1.1. Siano v e v funzioni uniformemente continue e limitate su Ω. Se v e v sono rispettivamente sottosoluzione e soprasoluzione di 1.1) allora vx) vx) x Ω vx) vx) x Ω Questo principio è sufficiente a garantire l unicità: date due soluzioni viscose v 1 e v 2, essendo ognuna di esse sia sottosoluzione che soprasoluzione si ha v 1 x) v 2 x) x Ω v 1 v 2 v 2 x) v 1 x) Il seguente risultato garantisce infine una condizione necessaria affinché valga il principio del confronto precedentemente enunciato. Teorema 1.1. Sotto le ipotesi h1)-h4) vale la Proposizione 1.1 e quindi il problema 1.1) ammette un unica soluzione viscosa. 2

3 2 Il problema di controllo ibrido 2 Il problema di controllo ibrido Per introdurre il concetto di controllo ibrido si può fare riferimento all idea di un sistema differenziale che ad un dato input associ un output, con l ipotesi che il sistema possa alternare più dinamiche in maniera discontinua. La commutazione tra le varie dinamiche inoltre può essere sia obbligatoria che controllata i.e. la scelta di commutare o mantenere una dinamica fa parte della strategia di controllo). Di seguito vengono riportate le definizioni degli enti matematici coinvolti con le rispettive ipotesi da soddisfare. Lo stato del sistema è la coppia yt), qt) ) Ω I dove I := {q 1,..., q m } e qt) indica la dinamica attiva al tempo t. h1) Ω è la chiusura di un sottoinsieme aperto e connesso di R d. Le funzioni di controllo α : [0, + ) Λ e w : [0, + ) V con i corrispondenti l insiemi di controllo ammissibili A := { α : [0, + ) Λ, α misurabile } V := { w : [0, + ) V, w misurabile } h2) Λ e V sono spazi metrici compatti. L equazione di stato che descrive l evoluzione del sistema ẏt) = f yt), qt), αt) ) y0) = x q0) = d 2.1) h3) f è lipschitziana rispetto ad y ed uniformemente continua rispetto ad α, inoltre M f > 0 tale che fy, q, α) Mf y, q, α) Ω I Λ L insieme A nel quale avviene la commutazione obbligatoria: se lo stato del sistema raggiunge A nell istante τ k, cambierà da ) y k, q k := y τ k ; α), q ) ) τ k a y k, q k) := y τ + k ; α), q ) ) τ + k secondo una mappa g. Si denota con D l insieme di destinazione. 3

4 2 Il problema di controllo ibrido h4) A è un sottoinsieme chiuso di R d, A è compatto con Ω A C 2, inoltre γ > 0 tale che fy, q, α) η y 2γ y, q, α) A I Λ in cui η y denota la normale esterna a A nel punto y. h5) g : Ω A V D I è limitata ed uniformemente lipschitziana. h6) D è un sottoinsieme chiuso e limitato di R d. L insieme C corrispondente alla commutazione opzionale, se lo stato del sistema si trova in C il controllo può decidere se cambiare o meno dinamica, nel primo caso viene chiamato ξ k il k-esimo istante di commutazione. h7) C è un sottoinsieme chiuso di R d, C è compatto con C C 2. Per C vale inoltre una proprietà di trasversalità analoga a quella di A. h8) Fissata una distanza euclidea d, ), valgono da, C) β > 0 e da, D) β > 0. L insieme E := Ω \ A C) in cui non può avvenire alcuna commutazione ed è quindi attivo il solo controllo continuo α. La strategia di controllo θ := α, w, {ξ k } k 0, {τ k } k 0 ) definita sull insieme Θ := A V [0, + ) [0, + ) e la traiettoria y x,q t; θ), qt; θ) ) che risolve 2.1). Il funzionale di costo nel caso dell orizzonte infinito) J x,d θ) := k=0 + k=0 l y x,d s; θ), qs; θ), αs) ) e λs ds+ c a y x,d τ k ; θ), q τ k ; θ), w ) ) τ k e λτ k + 2.2) c c y x,d ξ k ; θ), q ξ k ; θ), y x,d ξ + k ; θ), q ξ + k ; θ)) e λξ k h9) Il fattore di sconto λ > 0 che compare in 2.2) deve soddisfare ly1, q, a) ly 2, q, a) + fy1, q, a) fy 2, q, a) ) λ > sup y 1,y 2 Ω y 1 y 2 sup a,q) Λ I 4

5 2 Il problema di controllo ibrido h10) La funzione di costo del controllo continuo l : Ω I Λ R + è lipschitziana rispetto a y ed uniformemente continua rispetto a α. h11) Le funzioni di costo di commutazione autonoma obbligatoria) e controllata opzionale), rispettivamente c a : A I V R + e c c : C I D I R +, sono continue in tutte le variabili, uniformemente continue in y in modo uniforme rispetto alle altre variabili) e limitate dal basso da c 0 > 0. Una volta definita la funzione valore del problema vx, d) := inf θ Θ J x,dθ) 2.3) è possibile enunciare il Principio della Programmazione Dinamica in seguito DPP) per il problema ibrido nell orizzonte infinito: Proposizione 2.1. Per un dato stato iniziale x, d) valgono le seguenti: a) Se x, d) E I esiste t 0 > 0 tale che t 0, t 0 ) t yx,d vx, d) = inf l s; θ), qs) ), αs) )e λs ds + v y x,d t; θ), qt) )) α A 0 b) Se x, d) C I si ha vx, d) inf vx, q ) + c c x, d, x, d ) ) x,d ) D I Se non vale l uguaglianza allora t yx,d vx, d) = inf l s; θ), qs) ), αs) )e λs ds + v y x,d t; θ), qt) )) α A c) Se x, d) C I si ha 0 vx, d) = inf v gx, q, w) ) ) + c a x, d, w) w V Osservazione. Sotto le ipotesi h1)-h11) la funzione valore v è hölderiana e limitata. Grazie al DPP precedentemente enunciato si dimostra il seguente risultato: 5

6 2 Il problema di controllo ibrido Teorema 2.1. Se valgono le ipotesi h1)-h8), la funzione v definita in 2.3) è una soluzione viscosa, limitata e continua del sistema vx, d) Mvx, d) = 0 { max vx, d) N vx, d), λvx, d) + H x, d, vx, d) )} = 0 λvx, d) + H x, d, vx, d) ) = 0 in cui ) Hy, q, p) = sup ly, q, α) p fy, q, α) α A Mφy, q) = inf φgy, q, w)) + ca y, q, w) ) w V N φy, q) = inf y,q ) D I φy, q ) + c c y, q, y, q ) ) x, d) A I x, d) C I x, d) E I 2.4) Per ottenere un principio di confronto per le soluzioni di 2.4) è necessario il seguente risultato: Proposizione 2.2. Siano v 1, v 2 : Ω I R, allora valgono le seguenti proprietà per gli operatori N ed M: i) v 1 v 2 Ov 1 Ov 2 ii) O cv c)v 2 ) cov1 + 1 c)ov 2 c [0, 1] iii) Ov 1 + c) = Ov 1 + c c R iv) Ov 1 Ov 2 v 1 v 2 Vale quindi il seguente principio di confronto: Proposizione 2.3. Si assumano le ipotesi h1)-h11), sia v [risp. v] una funzione limitata semicontinua superiormente [inferiormente] definita su Ω I. Se v [v] è una sottosoluzione [soprasoluzione] di 2.4), ovvero se risolve vx, d) Mvx, d) [ ] 0 x, d) A I { max vx, d) N vx, d), λvx, d) + H x, d, vx, d) )} [ ] 0 x, d) C I λvx, d) + H x, d, vx, d) ) [ ] 0 x, d) E I allora vx, d) vx, d) x, d) Ω I vx, d) vx, d) x, d) Ω I 6

7 3 Lo schema Semi-Lagrangiano Ricapitolando, i risultati appena enunciati garantiscono che la funzione valore v è l unica soluzione dell equazione di Bellman. Il principio di confronto 2.3 consentirà in seguito di applicare il Teorema di Barles-Souganidis alle approssimazioni del sistema 2.4) e studiarne la convergenza. 3 Lo schema Semi-Lagrangiano Una discretizzazione della 2.4) consente di calcolare la soluzione approssimata v solo nel numero finito di nodi della griglia, è necessaria quindi un interpolazione per estendere la soluzione discreta su tutto il dominio computazionale Ω I. A questo proposito si la notazione seguente: essendo {q 1,..., q m } un insieme discreto, si denota con I[ˆv]x, d) la famiglia di interpolazioni del vettore ˆv calcolate in x e indicizzate da d. Ricapitolando, ad ogni funzione v : Ω I R si associa v := I[ˆv] che rappresenta l interpolazione dei valori di ˆv tramite I. Si consideri ora uno schema numerico che approssimi il sistema 2.4) in forma di punto fisso: M v x, d) v x, q) = T x, q, v ) { := min N v x, d), S x, d, v )} S x, d, v ) x, d) A I x, d) C I x, d) E I 3.1) Per poterne studiare la convergenza mediante il Teorema di Barles-Souganidis vengono inoltre fatte le seguenti assunzioni: h1) L operatore I[v] è monotono: ˆv 1, ˆv 2 R n ˆv 1 ˆv 2 I[ˆv 1 ] I[ˆv 2 ] h2) Gli operatori M, N e S sono monotoni: v 1, v 2 : Ω I R v 1 v 2 M v1 M v2 N v1 N v2 S x, d, v1) ) S x, d, v2 x, d) Ω I 7

8 3 Lo schema Semi-Lagrangiano h3) Gli operatori M e N sono invariati rispetto alla somma di costanti: v : Ω I R M v + c ) M v + c c R N v + c ) N v + c Osservazione. Le ipotesi h2) e h3) garantiscono che gli operatori M e N sono L -stabili. h4) Gli operatori M, N e S sono consistenti: v C Ω I), v : Ω I R lim v x, d) M v x, d) ) = vx, d) Mvx, d) x, d) A I 0 v x, d) N v x, d) ) = vx, d) N vx, d) x, d) C I lim 0 lim 0 v x, d) S x, d, v ) = λvx, d) + H x, d, vx, d) ) x, q) E C I Osservazione. L ipotesi h4) implica che l operatore T è consistente Osservazione. Lo schema 3.1) può essere posto in forma di ricerca della radice v del funzionale F : F x, d, v ) = 0 dove F x, d, v ) := v x, d) M v x, d) x, d) A I := max {v x, d) N v x, d), v x, d) S x, d, v ) } x, d) C I v x, d) S x, d, v ) x, d) E I La convergenza dello schema costruito si ottiene per mezzo del Teorema di Barles- Souganidis: Teorema 3.1. Sotto le ipotesi h1)-h5) l unica soluzione viscosa v di 3.1) converge localmente uniformemente all unica soluzione viscosa di 2.4) per 0. La dimostrazione è riportata in [2]. Inoltre lo schema 3.1) ammette un unica soluzione e che può essere calcolata iterativamente. 8

9 4 Strategie algoritmiche Teorema 3.2. Se valgono le ipotesi h2)-h5) allora 0, ), v0 L Ω I), x, d) Ω I la successione ricorsiva vk+1 = T ) x, d, vk converge per k ad un unico punto fisso v L Ω I) Il risultato è dimostrato in [3]. Proposizione 3.1. Se vale h2) il funzionale T è monotono: v1, v2 : Ω I R v1 v2 T x, d, v1) ) T x, d, v2 x, d) Ω I La dimostrazione si può trovare in [3]. 4 Strategie algoritmiche In questo capitolo viene studiata l implementazione algoritmica dello schema costruito nel capitolo precedente, confrontando due tipi di approcci: quello della Value Iteration e quello della Policy Iteration. La discretizzazione dell equazione di Bellman associata ad un dato problema di controllo traduce in genere quest ultimo nella ricerca di v R n tale che ) min Bα)v cα) = 0 4.1) α A n dove A è un insieme compatto, α A n, Bα) M n,n R) è monotona e cα) R n. L operatore min è da intendersi elemento per elemento. 4.1 Value iteration L algoritmo della Value Iteration è un metodo di punto fisso che pur garantendo un basso costo computazionale ad ogni iterazione presenta una convergenza lineare. Questo metodo determina ad ogni iterazione l approssimazione della funzione valore v minimizzando un espressione che utilizza quella calcolata precedentemente. Di seguito ne viene illustrata una pseudo-codifica: 9

10 4 Strategie algoritmiche Algoritmo 1 Value Iteration 1: inizializza k = 0 e v 0 R n 2: ripeti 3: v k+1 = min Ba)vk ca) ) a A n 4: se il criterio di arresto è soddisfatto allora 5: arresta = vero 6: altrimenti 7: k = k + 1 8: fine-condizione 9: fino a quando arresta = falso La scelta del criterio di arresto varia in base all implementazione: nella maggior parte dei casi si stabilisce una soglia di tolleranza ɛ > 0 e si opera il confronto con l errore relativo v k+1 v k < ɛ oppure con il residuo min Ba)vk+1 ca) ) < ɛ a A n La convergenza di questo algoritmo è stata dimostrata precedentemente in un caso più generale, si veda a riguardo il Teorema Policy iteration La Policy Iteration o algoritmo di Howard) è la principale alternativa alla Value Iteration: l idea è quella di calcolare v k ad ogni iterazione come il valore della strategia di controllo α k per il problema linearizzato Policy Evaluation) per poi migliorare la stima del controllo α k minimizzando v k Policy Improvement). Benché ogni iterazione di questo algoritmo richieda anche la risoluzione di un sistema lineare, la convergenza è sopralineare si veda [1] a riguardo) ed in generale molto più veloce di quella garantita dalla Value Iteration. Eccone una pseudo-codifica: 10

11 4 Strategie algoritmiche Algoritmo 2 Policy Iteration 1: inizializza k = 0 e α 0 R n 2: ripeti 3: assegna a v k la soluzione di Bα k )u cα k ) = 0 Policy Evaluation) 4: se il criterio di arresto è soddisfatto allora 5: arresta = vero 6: altrimenti 7: α k+1 = arg min Ba)vk ca) ) a A n 8: k = k + 1 9: fine-condizione 10: fino a quando arresta = falso Policy Improvement) Nella forma più generale la Policy Iteration non prevede necessariamente la risoluzione di Bα k )u cα k ) = 0 al passo 3, talvolta ci si limita a far avanzare uno schema iterativo per il sistema lineare di un numero prestabilito di passi o imponendo una tolleranza sulla norma del residuo. Per quanto riguarda il criterio di arresto valgono le stesse considerazione fatte nella sezione precedente sulla Value Iteration. La convergenza dell algoritmo di Howard è assicurata dal seguente Teorema: Teorema 4.1. Se valgono h1) α A n la matrice Bα) è monotona; h2) qualora A sia un insieme infinito e compatto, Bα) e cα) sono continue in α; allora!v R n soluzione di 4.1). Inoltre la successione {v k } k 0 generata dall algoritmo 2 soddisfa i) v k v k+1 k 0; ii) qualora A sia finito k A n : v k v k k; iii) qualora A sia infinito e compatto La dimostrazione è riportata in [1]. lim v k = v. k + 11

12 Riferimenti bibliografici [1] O. Bokanowski, S. Maroso, H. Zidani: Some convergence results for Howard s Algorithm, SIAM Journal on Numerical Analysis, 474) 2009), [2] R. Ferretti, M. Falcone: Semi-Lagrangian Approximation Schemes for Linear and Hamilton-Jacobi Equations, in uscita [3] R. Ferretti, H. Zidani: Numerical Schemes for Hybrid Control Systems, SIAM Journal on Numerical Analysis, in preparazione [4] M.G. Crandall, P. Lions: Viscosity solutions of Hamilton-Jacobi equations, Transactions of the American Mathematical Society, 2771), 1983), 1-42 [5] H. Zhang, M.R. James: Optimal Control of Hybrid Systems and a System of Quasi-Variational Inequalities, SIAM Journal on Control and Optimization, 452), 2006), [6] M. Bardi, I. Capuzzo-Dolcetta: Optimal control and viscosity solutions of Hamilton-Jacobi-Bellman equations, with appendices by M. Falcone and P. Soravia, Systems and Control: Foundations and Applications, 1997) [7] G. Barles, P.E. Souganidis: Convergence of approximation schemes for fully nonlinear second order equations, Asymptotic Analysis, 43),1991), [8] M.S. Branicky, V.S. Borkar, S.K. Mitter: A unified framework for hybrid control: model and optimal control theory, IEEE Transactions on Automatic Control, 431), 1998), [9] S. Dharmatti, M. Ramaswamy: Hybrid control systems and viscosity solutions SIAM Journal on Contol and Optimization, 444), 2005), [10] R.E. Bellman: Dynamic Programming, Princeton University Press, Princeton, NJ, 1957) [11] L.S. Pontryagin, V.G. Boltyanskii, R.V. Gamkrelidze, E.F. Mishchenko: The Mathematical Theory of Optimal Processes, 1962)