Chance Constraints for Stochastic Optimal Control and Stochastic Optimization Probabilistische Nebenbedingungen in stochastich optimaler Regelung und stochastischer Optimierung Master-Thesis von Onur Celik Dezember 2018 Chance Constraints for Stochastic Optimal Control and Stochastic Optimization Pr

Constraints in optimization problems for static systems is well studied nowadays. Effective numerical methods for convex and non-convex problems exist. However, for optimal control problems state and action constraints can be challenging, especially in case it is dealt with unknown dynamics in the Markov Decision Process. Dynamic Programming approaches, as Differential Dynamic Programming or iterative Linear Quadratic Gaussian, are powerful methods for Trajectory Optimization. In unknown dynamics tasks these methods generally gain linearized dynamics around the trajectory distribution and optimize subject to the linearized dynamics, which lead to local Linear Quadratic Gaussian controllers in closed-form. If constraints are not considered, the algorithms exploit the linearized dynamics and violate the constraints, such that validity of linearizations are not ensured anymore. However, action and state constraints in robotics are common and often known from construction. Thus, incorporating these constraints into the optimization procedure should yield advantages in terms of convergence and better overall performance. As the transition dynamics in Markov Decision Processes are stochastic, considering hard constraints is not possible. In this work, we introduce Chance Constraints within the iterative Linear Quadratic Gaussian framework, in order to increase convergence performance. For this purpose, we reformulate the Chance Constraints as a deterministic constraint and use a direct shooting method to formulate an optimization problem after the backward pass of iterative Linear Quadratic Gaussian, which is solved by using numerical solver CasADi. Known model-free policy search algorithms, like Relative Entropy Policy Search use information-theoretic bounds to prevent loss of information. These methods bound the policy update by using the Kullback-Leibler Divergence. For Relative Entropy Policy Search this results in an entropic risk measure in the corresponding dual. By updating the policy in direction of high reward regions, the algorithm is explicitly risk-seeking in terms of expected reward difference. This risk behavior can be tuned by the upper bound ε for Kullback-Leibler Divergence. In the second part of this work we propose a new point of view for Regularized Stochastic Optimization inspired by the risk behavior of Relative Entropy Policy search. We bound the reward change directly by using Chance Constraints instead of bounding the policy change. We show the proposed method’s behavior on finding the minimum value of two one-dimensional functions. Zusammenfassung Nebenbedingungen in Optimierungsproblemen für statische Systeme sind heute gut untersucht. Es gibt effektive numerische Methoden für konvexe und nicht konvexe Probleme. Für optimale Regelung können jedoch Zustandsund Stellgrößenbeschränkungen eine Herausforderung darstellen, insbesondere wenn es sich um eine unbekannte Dynamik im Markov-Entscheidungsprozess handelt. Dynamische Programmieransätze wie Differential Dynamic Programming oder iterative Linear Quadratic Gaussian sind leistungsfähige Methoden zur Trajektorienoptimierung. In unbekannten dynamischen Problemen linearisieren diese Verfahren die Dynamik in der Regel um die Trajektorienverteilung und optimieren in Abhängigkeit von der linearisierten Dynamik, was zu lokalen linearen quadratischen Reglern in geschlossener Form führt. Wenn Nebenbedingungen nicht berücksichtigt werden, nutzen die Algorithmen zu sehr die linearisierte Dynamik und verletzen die Einschränkungen, so dass die Gültigkeit von Linearisierungen nicht mehr gewährleistet ist. In der Robotik sind Stellgrößenund Zustandsbeschränkungen allerdings üblich und oft aus der Konstruktion bekannt. Die Einbeziehung dieser Einschränkungen in das Optimierungsverfahren sollte daher Vorteile in Bezug auf Konvergenz und bessere Gesamtleistung bringen. Da die Übergangsdynamik in Markov Entscheidungsprozessen stochastisch ist, ist es nicht möglich, harte Einschränkungen zu berücksichtigen. In dieser Arbeit führen wir probabilistische Nebenbedingungen innerhalb des iterative Linear Quadratic Gaussian Algorithmus’ ein, um die Konvergenzleistung zu erhöhen. Zu diesem Zweck formulieren wir die probabilistischen Nebenbedingungen als deterministische Nebenbedingung und formulieren mit einer direkten Methode ein Optimierungsproblem nach dem backward pass des iterative Linear Quadratic Gaussian Algorithmus’, das mit dem numerischen Solver CasADi gelöst wird. Bekannte modellfreie Algorithmen zur policy Suche, wie der Relative Entropy Policy Search Algorithmus, verwenden informationstheoretische Nebenbedingungen, um Informationsverluste zu vermeiden. Diese Methoden stellen eine Oberschranke für die Aktualisierung der policy mit Hilfe der Kullback-Leibler Divergenz. Für den Relative Entropy Policy Search Algorithmus ergibt sich daraus ein entropisches Risikomaß in der entsprechenden Dualform. Durch die Aktualisierung der policy in Richtung der Regionen mit hoher Belohnung sucht der Algorithmus explizit nach Risiken in Bezug i auf die erwartete Belohnungsdifferenz. Dieses Risikoverhalten kann durch die obere Grenze von ε für die Kullback-Leibler Divergenz eingestellt werden. Im zweiten Teil dieser Arbeit schlagen wir einen neuen Standpunkt für die regularisierte stochastische Optimierung vor, was durch das Risikoverhalten des Relative Entropy Policy Search Algorithmus’ inspiriert ist. Wir beschränken die Belohnungsänderung direkt mithilfe von probabilistischen Nebenbedingungen, anstatt die policy Änderung zu beschränken. Wir untersuchen das Verhalten der vorgeschlagenen Methode anhand eines eindimensionalen Minimierungsproblems für eine konvexe und nicht konvexe Funktion.

[1]  Scott Kuindersma,et al.  Constrained unscented dynamic programming , 2017, 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).

[2]  Frank Allgöwer,et al.  Constraint-Tightening and Stability in Stochastic Model Predictive Control , 2015, IEEE Transactions on Automatic Control.

[3]  Susmit Jha,et al.  On Optimal Control of Stochastic Linear Hybrid Systems , 2016, FORMATS.

[4]  Gerhard Kurz,et al.  Progressive closed-loop chance-constrained control , 2016, 2016 19th International Conference on Information Fusion (FUSION).

[5]  Wojciech Zaremba,et al.  OpenAI Gym , 2016, ArXiv.

[6]  Yuval Tassa,et al.  Control-limited differential dynamic programming , 2014, 2014 IEEE International Conference on Robotics and Automation (ICRA).

[7]  Jan Peters,et al.  A Survey on Policy Search for Robotics , 2013, Found. Trends Robotics.

[8]  Sergey Levine,et al.  Guided Policy Search , 2013, ICML.

[9]  Yuval Tassa,et al.  Synthesis and stabilization of complex behaviors through online trajectory optimization , 2012, 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems.

[10]  Yuval Tassa,et al.  MuJoCo: A physics engine for model-based control , 2012, 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems.

[11]  Arkadi Nemirovski,et al.  On safe tractable approximations of chance constraints , 2012, Eur. J. Oper. Res..

[12]  Daniel Liberzon,et al.  Calculus of Variations and Optimal Control Theory: A Concise Introduction , 2012 .

[13]  Claire J. Tomlin,et al.  On feedback design and risk allocation in chance constrained control , 2011, IEEE Conference on Decision and Control and European Control Conference.

[14]  P. Schrimpf,et al.  Dynamic Programming , 2011 .

[15]  Yasemin Altun,et al.  Relative Entropy Policy Search , 2010 .

[16]  Shie Mannor,et al.  Percentile Optimization for Markov Decision Processes with Parameter Uncertainty , 2010, Oper. Res..

[17]  Alexander Shapiro,et al.  Lectures on Stochastic Programming: Modeling and Theory , 2009 .

[18]  Anil V. Rao,et al.  ( Preprint ) AAS 09-334 A SURVEY OF NUMERICAL METHODS FOR OPTIMAL CONTROL , 2009 .

[19]  Hans Joachim Ferreau,et al.  Efficient Numerical Methods for Nonlinear MPC and Moving Horizon Estimation , 2009 .

[20]  Alexander Shapiro,et al.  Convex Approximations of Chance Constrained Programs , 2006, SIAM J. Optim..

[21]  Christopher M. Bishop,et al.  Pattern Recognition and Machine Learning (Information Science and Statistics) , 2006 .

[22]  A. Nemirovski,et al.  Scenario Approximations of Chance Constraints , 2006 .

[23]  Wendell H. Fleming,et al.  Risk sensitive stochastic control and differential games , 2006, Commun. Inf. Syst..

[24]  E. Todorov,et al.  A generalized iterative LQG method for locally-optimal feedback control of constrained nonlinear stochastic systems , 2005, Proceedings of the 2005, American Control Conference, 2005..

[25]  Shie Mannor,et al.  A Tutorial on the Cross-Entropy Method , 2005, Ann. Oper. Res..

[26]  Richard S. Sutton,et al.  Reinforcement Learning: An Introduction , 1998, IEEE Trans. Neural Networks.

[27]  O. Bosgra,et al.  A conic reformulation of Model Predictive Control including bounded and stochastic disturbances under state and input constraints , 2002, Proceedings of the 41st IEEE Conference on Decision and Control, 2002..

[28]  Simon J. Julier,et al.  The scaled unscented transformation , 2002, Proceedings of the 2002 American Control Conference (IEEE Cat. No.CH37301).

[29]  J. Löfberg Linear Model Predictive Control Stability and Robustness , 2001 .

[30]  Rudolph van der Merwe,et al.  The unscented Kalman filter for nonlinear estimation , 2000, Proceedings of the IEEE 2000 Adaptive Systems for Signal Processing, Communications, and Control Symposium (Cat. No.00EX373).

[31]  P. Dupuis,et al.  Robust Properties of Risk-Sensitive Control , 1998, Proceedings of the 37th IEEE Conference on Decision and Control (Cat. No.98CH36171).

[32]  Oskar von Stryk,et al.  Direct and indirect methods for trajectory optimization , 1992, Ann. Oper. Res..

[33]  K. Glover,et al.  State-space formulae for all stabilizing controllers that satisfy and H ∞ norm bound and relations to risk sensitivity , 1988 .

[34]  Rhodes,et al.  Optimal stochastic linear systems with exponential performance criteria and their relation to deterministic differential games , 1973 .

[35]  David Q. Mayne,et al.  Differential dynamic programming , 1972, The Mathematical Gazette.