Tag:

On the Convergence of Adam and Beyond

现在训练深度学习网络的主要方法就是使用SGD优化器及其变体。一些SGD的变体比如:Adam, AdaDelta, Nadam等优化器利用历史梯度更新指数滑动平均的平方根信息。根据经验来看,在许多应用中,这些优化器无法让模型收敛到最优解。本文的分析指出,导致该问题的一个原因就是这些优化器中使用了历史梯度的指数滑动平均信息。文中通过一个简单的例子展示了Adam优化器是如何收敛到了一个非常差的结果的。为了解决此问题,文章提出了一个新的改进的优化器算法*AMSGrad*。该优化器不仅可以解决前面提到的收敛性问题,而且根据实验来看,还可以在一定程度上改善Adam的性能。

现在训练深度学习网络的主要方法就是使用SGD优化器及其变体。一些SGD的变体比如:Adam, AdaDelta, Nadam等优化器利用历史梯度更新指数滑动平均的平方根信息。根据经验来看,在许多应用中,这些优化器无法让模型收敛到最优解。本文的分析指出,导致该问题的一个原因就是这些优化器中使用了历史梯度的指数滑动平均信息。文中通过一个简单的例子展示了Adam优化器是如何收敛到了一个非常差的结果的。为了解决此问题,文章提出了一个新的改进的优化器算法*AMSGrad*。该优化器不仅可以解决前面提到的收敛性问题,而且根据实验来看,还可以在一定程度上改善Adam的性能。

Invertible Residual Networks

本文展示了如何将ResNet结构改变为可逆的结构,这种变更后的结构在分类、密度估计以及内容生成方面都适用。通常,强制网络结构可逆需要对网络进行维度划分并且需要限制网络结构。本文提出的方法仅需要在训练期间添加一个简单的规范化步骤,这在现有的机器学习框架中很容易实现。可逆的ResNets网络可以和现有的最好的图片分类器以及基于流的生成模型相媲美。这在之前,任何单个网络都是无法做到的。

本文展示了如何将ResNet结构改变为可逆的结构,这种变更后的结构在分类、密度估计以及内容生成方面都适用。通常,强制网络结构可逆需要对网络进行维度划分并且需要限制网络结构。本文提出的方法仅需要在训练期间添加一个简单的规范化步骤,这在现有的机器学习框架中很容易实现。可逆的ResNets网络可以和现有的最好的图片分类器以及基于流的生成模型相媲美。这在之前,任何单个网络都是无法做到的。

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

在神经网络的训练过程中,每一层的参数都在变化着,这就引起了该层的输出在不断变化,也就是其后续层的输入的分布在不断变化。这种变化的特性,导致人们必须仔细的选择神经网络初始化的数据并且使用较小的学习率,这就降低了神经网络的训练速度,由此可见训练神经网络并不是一项简单的工作。本文称神经网络层的这种输出不断变化的现象为内部协变量转移 (Internal Covariate Shift, ICS)。对此问题,本文提出了使用批标准化 (Batch Normalization, BN)来解决此问题。BN的使用可以让我们使用更高的学习率,在一些情况下还可以免去使用Dropout,而泛化性依旧可以保持。

在神经网络的训练过程中,每一层的参数都在变化着,这就引起了该层的输出在不断变化,也就是其后续层的输入的分布在不断变化。这种变化的特性,导致人们必须仔细的选择神经网络初始化的数据并且使用较小的学习率,这就降低了神经网络的训练速度,由此可见训练神经网络并不是一项简单的工作。本文称神经网络层的这种输出不断变化的现象为内部协变量转移 (Internal Covariate Shift, ICS)。对此问题,本文提出了使用批标准化 (Batch Normalization, BN)来解决此问题。BN的使用可以让我们使用更高的学习率,在一些情况下还可以免去使用Dropout,而泛化性依旧可以保持。