标签:

Proximal Policy Optimization Algorithms

此文提出了著名的PPO算法,由谷歌 Open AI 于17年发布,对于深度强化学习领域产生了巨大的影响。在此之前,Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题,但是此算法需要计算二阶导矩阵,在实际使用中性能受限,扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法,它没有引入一个强约束,而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化,大大降低了算法复杂度。

此文提出了著名的PPO算法,由谷歌 Open AI 于17年发布,对于深度强化学习领域产生了巨大的影响。在此之前,Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题,但是此算法需要计算二阶导矩阵,在实际使用中性能受限,扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法,它没有引入一个强约束,而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化,大大降低了算法复杂度。