# For: Conservative Q-Learning for Offline Reinforcement Learning

1820

1. 论文摘要
2. 背景
3. CQL
1. 策略评估
2. 离线算法
3. 理论分析
4. 实验
5. 相关阅读建议
6. 参考文献

## 背景

### 标准TD学习回顾

1. 策略评估（policy evaluation）：此部分用于学习策略对应的Q值函数
2. 策略改进（policy improvement）：此部分用于学习策略本身

$$\mathcal{B}^\pi Q = r(s, a) + \gamma \mathbb{E}_{s^\prime \sim p(s^\prime \vert s, a), a^\prime \sim \pi(a^\prime\vert s^\prime)}[Q (s^\prime, a^\prime)]$$

$$Q^{k+1} \leftarrow \arg\min_{Q} \mathbb{E}_{s, a \sim \mathcal{D}} \left[ (Q(s, a) - \mathcal{B}^\pi Q(s, a)) \right]$$

## CQL

CQL的想法是既然超估了，那么我们就采用一个保守的策略：显示地降低对当前状态（+动作）的价值估计。

$$\hat{Q}^{k+1} \leftarrow \arg \min_{Q} \mathbb{E}_{s,a,s^\prime \sim \mathcal{D}}\left[ \left( r(s,a) + \gamma\mathbb{E}_{a^\prime \sim \hat{\pi}^{k}(a^\prime, s^\prime)}[\hat{Q}^k(s^\prime, a^\prime)] - Q(s, a) \right)^2 \right]\\ \hat{\pi}^{k+1} \leftarrow \arg \max_{\pi} \mathbb{E}_{s\sim \mathcal{D}, a\sim \pi^k(s\vert s)}\left[ \hat{Q}^{k+1} (s,a) \right]$$

### 策略评估

#### 版本一

$$\hat{Q}^{k+1} = \arg \min_Q \alpha \mathbb{E}_{s\sim \mathcal{D}, a\sim \mu(a\vert s)}[Q(s, a)] + \mathcal{L}_{Bellman}(Q) \tag{1}$$

#### 版本二

$$\hat{Q}^{k+1} = \arg \min_Q \alpha \cdot \left(\mathbb{E}_{s\sim \mathcal{D}, a\sim \mu(a\vert s)}[Q(s, a)] - \color{#f55} { \mathbb{E}_{s\sim \mathcal{D}, a\sim\hat{\pi}_\beta(a\vert s)}[Q(s, a)] } \right) + \\ \mathcal{L}_{Bellman}(Q) \tag{2}$$

### 离线算法

$$\min_Q \max_\mu \alpha (\mathbb{E}_{s\sim \mathcal{D}, a\sim \color{#f55}{\mu(a\vert s)} }[Q(s, a)] - \mathbb{E}_{s\sim \mathcal{D}, a\sim\hat{\pi}_\beta(a\vert s)}[Q(s, a)]) + \\ \mathcal{L}_{Bellman}(Q) + \color{#f55}{\mathcal{R}(\mu)} \tag{3}$$

$$\max_\mu \mathbb{E}_{a\sim \mu(a\vert s)}[Q(s, a)] - D_{KL} (\mu, \rho)$$

$$\min_Q \alpha \mathbb{E}_{s\sim\mathcal{D}} \left[ \log \sum_a \exp(Q(s, a)) - \mathbb{E}_{a \sim \hat{\pi}_\beta(a\vert s)}[Q(s, a)] \right] + \mathcal{L}_{Bellman}(Q) \tag{4}$$

$$\min_Q \alpha \mathbb{E}_{s\sim d^{\pi_\beta}(s)} \left[ \mathbb{E}_{a\sim \rho(a\vert s)} \left[ Q(s, a) \cfrac{\exp(Q(s, a))}{Z} \right ] - \mathbb{E}_{a \sim \hat{\pi}_\beta(a\vert s)}[Q(s, a)] \right] + \mathcal{L}_{Bellman}(Q)$$

#### 实现细节

$$\mathcal{L}_{CQL}(Q) = \alpha \cdot \mathbb{E}_{s\sim \mathcal{D}} \left[ \log \sum_a \exp (Q(s, a)) - \mathbb{E}_{a\sim \hat{\pi}_{\beta}(a\vert s)}[Q(s, a)] \right]$$

1. 固定取值：默认取值$\alpha=5.0$
2. 动态取值：使用拉格朗日对偶梯度下降法

$$\max_{\alpha \ge 0} \alpha \left( \mathbb{E}_{s\sim d^{\pi_\beta}(s)} \left[ \log \sum_a \exp (Q(s, a)) - \mathbb{E}_{a\sim \hat{\pi}_{\beta}(a\vert s)}[Q(s, a)] \right] - \color{#f55}{\tau} \color{} \right) \tag{5}$$

## 实验

• $CQL(\mathcal{H})\ vs\ CQL(\rho)$：在D4RL数据集中的MuJoCo任务中$CQL(\mathcal{H})$的效果优于$CQL(\rho)$；在动作空间特别大时，对于log-sum-exp项的预测会变得不准确（方差极大），此时$CQL(\rho)$的效果较好
• 不添加已采样数据Q值最大化影响怎么样（即不添加公式$(2)$中的红色部分）：添加了性能更好，添加的优势在生成采样数据的策略较为单一时尤为明显
• $\alpha$静态 vs 动态：使用拉格朗日法（动态）的$\alpha$带来更优的效果

## 相关阅读建议

1. Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. Offline reinforcement learning: Tutorial, review, and perspectives on open problems.arXiv preprint arXiv:2005.01643, 2020.

## 参考文献

[1] Kumar, Aviral, et al. "Conservative q-learning for offline reinforcement learning."Advances in Neural Information Processing Systems33 (2020): 1179-1191.

Article Tags
[本]通信工程@河海大学 & [硕]CS@清华大学

0
1820
0

More Recommendations

Oct. 10, 2023
Nov. 30, 2022
Nov. 21, 2022
Oct. 18, 2022