标签:

High-Dimensional Continuous Control Using Generalized Advantage Estimation

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。