论文信息 - Policy Evaluation with Variance Related Risk Criteria in Markov Decision Processes

Policy Evaluation with Variance Related Risk Criteria in Markov Decision Processes

In this paper we extend temporal difference policy evaluation algorithms to performance criteria that include the variance of the cumulative reward. Such criteria are useful for risk management, and are important in domains such as finance and process control. We propose both TD(0) and LSTD(lambda) variants with linear function approximation, prove their convergence, and demonstrate their utility in a 4-dimensional continuous state space problem.

Shie Mannor | Dotan Di Castro | Aviv Tamar

[1] M. J. Sobel. The variance of discounted Markov decision processes , 1982 .

[2] Dimitri P. Bertsekas,et al. Dynamic Programming and Optimal Control, Vol. II , 1976 .

[3] Alessandro Lazaric,et al. Finite-Sample Analysis of LSTD , 2010, ICML.

[4] Jack L. Treynor,et al. MUTUAL FUND PERFORMANCE* , 2007 .

[5] Charles R. Johnson,et al. Matrix analysis , 1985, Statistical Inference for Engineers and Data Scientists.

[6] John N. Tsitsiklis,et al. Mean-Variance Optimization in Markov Decision Processes , 2011, ICML.

[7] Justin A. Boyan,et al. Technical Update: Least-Squares Temporal Difference Learning , 2002, Machine Learning.

[8] Dimitri P. Bertsekas,et al. Temporal Difference Methods for General Projected Equations , 2011, IEEE Transactions on Automatic Control.

[9] Andrew G. Barto,et al. Skill Discovery in Continuous Reinforcement Learning Domains using Skill Chaining , 2009, NIPS.

[10] Shie Mannor,et al. Policy Gradients with Variance Related Risk Criteria , 2012, ICML.

[11] Martin L. Puterman,et al. Markov Decision Processes: Discrete Stochastic Dynamic Programming , 1994 .