标签:

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

SAC算法是Tuomas Haarnoja于DeepMind在2018年提出的强化学习算法。无模型深度强化学习在决策和控制任务中应用时会遇到两个挑战:1. 需要大量的样本;2. 收敛性。此算法希望为​解决这两个挑战提供一个好的解决方案。

SAC算法是Tuomas Haarnoja于DeepMind在2018年提出的强化学习算法。无模型深度强化学习在决策和控制任务中应用时会遇到两个挑战:1. 需要大量的样本;2. 收敛性。此算法希望为​解决这两个挑战提供一个好的解决方案。