权重归一化:简化神经网络优化的通用方法

释放双眼,带上耳机,听听看~!
本文介绍了一种称为权重归一化的神经网络优化方法,通过重新参数化权重向量来改善优化问题的条件,并加速随机梯度下降的收敛。该方法受到批量归一化方式的启发,但不引入任何相互依赖,并且在诸如LSTM的循环模型和对噪声敏感的应用中也具有良好的适用性。

作者:OpenAi

翻译:suntiger

1.摘要

权重归一化是一种在神经网络中权重向量的重新参数化方法,通过将权重向量的长度与其方向解耦来重新参数化权重,我们改善了优化问题的条件,并加速了随机梯度下降的收敛。我们的重新参数化方法受到批量归一化方式的启发,但并未在一个小批量样本中引入任何相互依赖。这意味着我们的方法也可以成功应用于诸如LSTM的循环模型以及对噪声敏感的应用,例如深度强化学习或生成模型,这些应用场景中批量归一化的适用性较差。尽管我们的方法更为简单,但它仍能提供与完整批量归一化相当的加速效果。此外,我们方法的计算开销更低,允许在相同的时间内进行更多的优化步骤。我们在监督图像识别、生成建模和深度强化学习的应用中展示了我们方法的实用性。

2.介绍

近年来深度学习的成功表明,通过一阶梯度优化训练的神经网络能在计算机视觉、语音识别和语言建模等多个领域取得惊人的成果。然而众所周知,一阶梯度优化在实践中的成功程度高度依赖于优化目标的曲率。如果目标函数在最优点处的Hessian矩阵的条件数较低,问题将表现出病态曲率,一阶梯度下降将难以取得进展。曲率的大小以及优化的成功与否并不是对重新参数化不变的:对于相同的模型,可能存在多种等效的参数化方式,其中某些方式比其他方式更容易优化。因此,在深度学习中寻找合适的神经网络参数化方式是一个重要问题。

尽管神经网络在不同应用中的结构差异很大,但它们通常主要由概念上简单的计算基本构件组成,有时称为神经元:每个这样的神经元计算其输入的加权和,并加上一个偏置项,然后应用逐元素非线性变换。改善深度网络的整体优化性能是一项具有挑战性的任务,但由于许多神经网络结构共享这些基本构件,改进这些构件可以提高广泛的模型结构的性能,从而非常有用。

最近,一些作者提出了改进一般神经网络结构的梯度条件的方法。一种方法是将代价梯度左乘以Fisher信息矩阵的近似逆,从而获得近似白化的自然梯度。例如,可以通过使用克罗内克分解的Fisher矩阵并对其进行求逆,或者通过近似Cholesky分解逆Fisher矩阵,或者通过白化神经网络中每一层的输入来获得这样的近似逆。另一种方法是使用标准的一阶梯度下降而不进行预处理,但改变模型的参数化方式,使梯度更接近这些方法的白化自然梯度。例如Raiko等人提出将每个神经元的输出转换为平均输出和平均斜率均为零。他们发现这种转换可以近似对角化Fisher信息矩阵,从而白化梯度,并导致优化性能的提升,另一个类似的方法是批量归一化,在这种方法中,每个神经元(在应用非线性激活函数之前)的输出通过计算在小批量样本中的输出均值和标准差进行归一化。这减少了神经元输出的协变量漂移,作者认为这也使Fisher矩阵更接近单位矩阵。

遵循第二种方法来近似自然梯度优化,我们提出了一种简单但通用的方法,称为权重归一化,用于改善神经网络模型权重的可优化性。该方法受到批量归一化的启发,但它是一种确定性方法,不具有批量归一化中为梯度增加噪声的特性。此外,我们方法所增加的开销更低:不需要额外的内存,而且额外的计算量可以忽略不计。该方法在一系列深度学习应用中展示了令人鼓舞的结果。

3.权重归一化

我们考虑标准的人工神经网络,其中每个神经元的计算包括对输入特征进行加权求和,然后进行逐元素非线性处理:

y = φ(w · x + b)

(1)

其中w是一个k维权重向量,b是一个标量偏置项,x是一个k维输入特征向量,φ(.)表示逐元素非线性函数,如整流器max(., 0),y表示神经元的标量输出。

将一个或多个神经元输出与损失函数关联后,通常通过随机梯度下降来训练这样的神经网络,并针对每个神经元的参数w, b。为了加速这个优化过程的收敛,我们建议将每个权重向量w用参数向量v和标量参数g来重新参数化,并针对这些参数执行随机梯度下降。我们通过以下方式用新参数表示权重向量:

权重归一化:简化神经网络优化的通用方法

(2)

其中v是一个k维向量,g是一个标量,||v||表示v的欧几里得范数。这种重新参数化具有固定权重向量w的欧几里得范数的效果:现在我们有||w|| = g,独立于参数v。因此,我们称这种重新参数化为权重归一化。

归一化权重向量的想法以前已经提出过,但之前的工作通常仍然在w参数化中进行优化,只在随机梯度下降的每一步之后应用归一化。这与我们的方法有本质上的不同:我们建议明确地重新参数化模型,并直接在新的参数v、g中进行随机梯度下降。这样做改善了梯度的条件,提高了优化过程的收敛性:通过解耦权重向量的范数(g)和权重向量的方向(v/||v||),我们加速了随机梯度下降优化的收敛,正如我们在第5节的实验中展示的那样。

我们可以使用指数参数化来表示g,即g = e^s,其中s是通过随机梯度下降学习的对数尺度参数。在对数尺度上参数化g参数更直观,更容易让g覆盖不同的大小范围。然而从实证上看,我们并未发现这是一个优势。在我们的实验中,最终的测试集性能与直接学习g在其原始参数化的结果相比,并没有显著优劣之分,而优化速度略有降低。

3.1 梯度

在新参数化中训练神经网络是通过使用标准随机梯度下降方法完成的。在这里,我们通过上面公式(2)求导,以获得损失函数L关于新参数v、g的梯度。这样做可以得到:

权重归一化:简化神经网络优化的通用方法

(3)

其中,∇wL是关于权重 w 的梯度,通常情况下会用到。使用权重归一化的反向传播仅需要对常规反向传播方程进行轻微修改,可以使用标准神经网络软件轻松实现。我们在 提供了Theano的参考实现。与批量归一化不同,上述表达式与小批量尺寸无关,因此只会带来最小的计算开销。梯度的另一种表示方式是

权重归一化:简化神经网络优化的通用方法

(4)

其中 Mw 是一个投影矩阵,将梯度投影到 w 向量的补空间上。这表明权重归一化实现了两件事:通过 g/||v|| 缩放权重梯度,并将梯度投影到当前权重向量之外。这两种效果都有助于将梯度的协方差矩阵靠近单位矩阵,并优化学习过程,如下所述。

由于投影远离 w,使用标准梯度下降(无动量)学习神经网络时,权重归一化下 v 的范数随权重更新次数单调增加:设 v0 = v + Δv 表示我们的参数更新,Δv ∝ ∇vL(最陡上升/下降),则 Δv 必定与当前权重向量 w 正交,因为我们在计算 ∇vL(等式 4)时投影远离它。由于 v 与 w 成比例,更新因此也与 v 正交,并通过勾股定理增加其范数。具体来说,如果 ||Δv||/||v|| = c,则新权重向量的范数为
权重归一化:简化神经网络优化的通用方法,增长速率将取决于权重梯度的方差。如果我们的梯度噪声较大,c 将较高,v 的范数将迅速增加,反过来将降低缩放因子 g/||v||。如果梯度的范数较小,我们得到
权重归一化:简化神经网络优化的通用方法,v的范数将停止增加。通过这种机制,缩放后的梯度自稳定其范数。这一性质对于使用单独学习率的优化器(如我们在实验中使用的 Adam)或使用动量时并不严格成立。然而,从定性上讲,我们仍然发现同样的效果成立。

根据经验,我们发现让范数 ||v|| 增长使得神经网络在权重归一化下对学习率的优化非常稳健:如果学习率过大,非归一化权重的范数会迅速增加,直到达到适当的有效学习率。一旦权重范数相对于更新范数变大,有效学习率就会稳定。因此,具有权重归一化的神经网络在更广泛的学习率范围内工作得很好,比使用正常参数化时更好。已经观察到,具有批量归一化的神经网络也具有这种特性,这也可以通过这种分析来解释。

通过将梯度投影到权重向量 w 之外,我们还消除了该方向上的噪声。如果关于 w 的梯度的协方差矩阵由 C 给出,那么 v 中梯度的协方差矩阵由 D = (g^2/||v||^2)MwCMw 给出。根据经验,我们发现 w 通常是(接近)协方差矩阵 C 的主要特征向量:去除该特征向量后,得到一个新的协方差矩阵 D,它更接近于单位矩阵,这可能会进一步加快学习速度。

3.2 与批量归一化的关系

这种重新参数化的一个重要灵感来源是批量归一化(batch normalization),它对每个小批量的预激活t的统计数据进行归一化,如下所示:

权重归一化:简化神经网络优化的通用方法

在这种重新参数化中,一个重要的灵感来源是批量归一化。对于预激活t = v · x,批量归一化使用每个小批量的预激活的均值µ和标准差σ对其进行归一化。对于我们的网络只有一层的特殊情况,如果该层的输入特征x被白化(独立分布,均值为零,方差为1),那么这些统计量由µ = 0和σ = ||v||给出。在这种情况下,使用批量归一化对预激活进行归一化等同于使用权重归一化对权重进行归一化。

卷积神经网络通常具有比预激活少得多的权重,因此对权重进行归一化在计算上通常更便宜。此外,v的范数是非随机的,而小批量均值µ和方差σ^2在小批量大小情况下通常具有较高的方差。因此,权重归一化可以被视为批量归一化的更便宜且噪声更小的近似。尽管对于更深层次的架构,精确等价通常并不成立,但我们仍发现,我们的权重归一化方法在很大程度上提高了与完全批量归一化相当的速度。此外,由于其确定性特性和对小批量输入的独立性,我们的方法更容易应用于诸如RNN和LSTM之类的模型,以及对噪声敏感的应用,如强化学习。

3.3 参数的数据依赖初始化

除了重新参数化效应外,批量归一化还具有固定神经网络每一层产生的特征尺度的优点。这使得优化对于这些尺度在各层之间变化的参数初始化具有鲁棒性。由于权重归一化缺乏这一特性,我们发现正确初始化参数非常重要。我们建议从一个具有固定尺度的简单分布中对 v 的元素进行采样,实验中是均值为零、标准差为0.05的正态分布。在开始训练之前,我们然后初始化 b 和 g 参数,以修复我们网络中所有预激活的小批量统计数据,就像在批量归一化中一样但只针对一个小批量的数据,且仅在初始化期间。这可以通过对单个小批量的数据 X 在我们的网络中进行初始前向传播来有效地实现,在每个神经元处进行以下计算:

权重归一化:简化神经网络优化的通用方法

(5)

其中 µ 和 σ 分别是小批量中预激活 t 的均值和标准差。然后,我们可以初始化神经元的偏置 b 和缩放因子 g 如下:

权重归一化:简化神经网络优化的通用方法

(6)

使得 y = φ(w · x+b)。与批量归一化类似,该方法确保在应用非线性之前,所有特征最初具有零均值和单位方差。使用我们的方法,这仅适用于我们用于初始化的小批量数据,后续的小批量数据可能具有略有不同的统计特性,但实验上我们发现这种初始化方法效果不错。该方法还可以应用于没有权重归一化的网络,只需在用 v 和 g 初始化参数 w 之后,直接对参数 w 进行随机梯度优化:这是我们在第 5 节中进行比较的内容。独立于我们的工作,最近不同的作者提出了这种类型的初始化,并发现这种基于数据的初始化在与标准参数化(以 w 为参数)一起使用时效果很好。

这种初始化方法的缺点是,它只能应用在与批量归一化适用的类似情况下。对于具有递归的模型,如 RNN 和 LSTM,我们将不得不使用标准初始化方法。

4. 均值仅批量归一化

如第2节中介绍的,权重归一化使神经元激活的规模大致独立于参数v。然而,与批量归一化不同,神经元激活的均值仍然依赖于v。因此,我们还探讨了将权重归一化与一种特殊版本的批量归一化相结合的想法,我们称之为均值仅批量归一化:使用这种归一化方法,我们像在完全批量归一化中那样减去小批量均值,但我们不除以小批量的标准偏差。也就是说,我们计算神经元激活时使用:

权重归一化:简化神经网络优化的通用方法

(7)

其中 w 是权重向量,使用权重归一化参数化,µ是预激活 t 的小批量均值。在训练过程中,我们保持对小批量均值的滚动平均,我们在测试时用它替换 µ。

损失函数关于预激活 t 的梯度计算为:

权重归一化:简化神经网络优化的通用方法

(8)

其中,µ再次表示计算小批量均值的操作。因此,均值仅批量归一化的作用是使反向传播的梯度居中。这是一个相对便宜的操作,因此均值仅批量归一化的计算开销要低于完全批量归一化。此外,这种方法在训练过程中引入较少的噪声,由于大数定律保证 µ和 µ[∇t˜] 大致呈正态分布,因此引入的噪声更为温和。因此,增加的噪声的尾部要比在完全批量归一化中使用的小批量方差估计引起的高峰态噪声轻很多。这在测试时可以提高准确性。

5. 实验

我们通过使用四种不同的模型来实验验证我们方法的有效性,这些模型应用于不同领域,如监督图像识别、生成建模和深度强化学习。

5.1 监督分类:CIFAR-10

为了测试我们的重新参数化方法在监督分类应用中的效果,我们考虑使用CIFAR-10自然图像数据集。我们使用的模型基于ConvPool-CNN-C架构,但进行了一些小的修改:我们将第一个dropout层替换为添加高斯噪声的层,将最后一个隐藏层从10个单元扩展到192个单元,以及使用2×2的最大池化,而非3×3。我们积极优化的唯一超参数(高斯噪声的标准差)是通过在10000个样例的保留集上使用标准参数化(没有权重归一化或批量归一化)来最大化网络性能而选择的。在补充材料中的表A中给出了最终架构的完整描述。

我们使用Adam训练CIFAR-10数据集的网络,训练共进行200个epoch。在前100个epoch中,我们使用固定学习率和0.9的动量。在最后100个epoch中,我们将动量设置为0.5,并将学习率线性衰减至零。我们使用的小批量大小为100。我们评估了5种不同的网络参数化:1)标准参数化,2)使用批量归一化,3)使用权重归一化,4)使用权重归一化结合仅均值批量归一化,5)使用仅均值批量归一化的正常参数化。网络参数使用第3节的方案进行初始化,使得所有四种情况在开始时具有相同的参数。对于每种情况,我们从{0.0003, 0.001, 0.003, 0.01}中选择最佳学习率。训练过程中的误差曲线可以在图1中找到:权重归一化和批量归一化相比于标准参数化都能显著加快训练速度。批量归一化在训练初期比权重归一化每个epoch取得更多进展,尽管这部分被计算成本较高所抵消:在我们的实现中,使用批量归一化的训练速度比标准参数化慢约16%。相反,权重归一化的速度并没有明显变慢。在训练的后期阶段,权重归一化和批量归一化似乎以相同的速度优化,而正常参数化(无论是否使用仅均值批量归一化)仍然落后。

在使用不同参数化对网络进行200个epoch的优化之后,我们评估它们在CIFAR-10测试集上的性能。结果总结在表2中:权重归一化、正常参数化和仅均值批量归一化具有相似的测试准确率(≈8.5%的错误率)。批量归一化的表现明显更好,错误率为8.05%。仅均值批量归一化与权重归一化结合具有最佳性能,测试错误率为7.31%,有趣的是,它比仅均值批量归一化与正常参数化结合的表现要好得多:这表明批量归一化所添加的噪声对于规范化网络是有用的。
但是权重归一化或完全批量归一化所提供的重新参数化对于获得最佳结果也是必要的。我们假设仅均值批量归一化(B.N.)与权重归一化相结合相比于普通批量归一化的显著改进,是由于归一化方法在训练过程中引起的噪声分布:对于仅均值批量归一化,小批量均值具有近似高斯分布的分布,而完全批量归一化在训练过程中添加的噪声具有更高的峰度。据我们所知,在不使用数据增强的方法中,仅均值批量归一化与权重归一化相结合的结果代表了CIFAR-10的最新技术水平。

权重归一化:简化神经网络优化的通用方法

图1 使用不同网络参数化训练CIFAR-10的错误率。对于权重归一化、批量归一化和仅均值批量归一化,我们展示了使用学习率为0.003的Adam的结果。对于正常参数化,我们改用0.0003,这在这种情况下效果最好。在最后100个epoch中,学习率线性衰减至零。

权重归一化:简化神经网络优化的通用方法

图2 不使用数据增强的CIFAR-10分类结果

5.2 生成建模:卷积变分自编码器(Convolutional VAE)

接下来,我们测试将权重归一化应用于深度卷积变分自编码器(CVAEs)的效果,这些自编码器在手写数字的MNIST数据集和小自然图像的CIFAR-10数据集上进行训练。变分自编码器是生成模型,它将数据向量x解释为来源于一组潜在变量z的形式,通过联合分布p(z, x) = p(z)p(x|z),其中解码器p(x|z)使用神经网络来指定。通过使用也表示为神经网络的编码器分布q(z|x)从观察到的数据x中近似推断潜在变量z,可以得到对数边际似然log p(x)的下界。然后优化这个下界以使模型适应数据。

我们遵循了类似CVAE实现,但进行了一些修改,主要是将编码器和解码器参数化为ResNet块,并用自回归变分推断1替换对角后验。对于MNIST,编码器由3个序列组成,每个序列有两个ResNet块,第一个序列作用于16个特征图,其他序列作用于32个特征图。前两个序列后面跟着一个2倍下采样操作,使用2×2步长实现,而第三个序列后面跟着一个具有450个单元的全连接层。解码器具有类似的架构,但方向相反。对于CIFAR-10,我们使用了具有ResNet单元和多个中间随机层1的神经架构。我们使用Adamax(α = 0.002)进行优化,结合Polyak平均的形式,即一个指数移动平均值,将参数平均在大约10个epoch内。

在图3中,我们绘制了作为训练epoch数量函数的测试集下界,包括基于初始化参数的多个不同随机种子的误差条。如图所示,具有权重归一化的参数化具有较低的方差并收敛到更好的最优值。我们在不同超参数设置下观察到类似的结果。

权重归一化:简化神经网络优化的通用方法

图3 在MNIST和CIFAR-10测试集上,训练过程中卷积VAE的边缘对数似然下界,包括标准实现和我们使用权重归一化的修改。对于MNIST,我们提供标准误差条以表示基于不同初始随机种子的方差

5.3 生成建模:DRAW

接下来,我们考虑DRAW,一种循环生成模型。DRAW是一个变分自编码器,具有生成模型p(z)p(x|z)和编码器q(z|x),类似于第5.2节中的模型,但编码器和解码器都由长短时记忆(LSTM)单元组成的循环神经网络构成。LSTM单元由具有加法动力学的记忆单元组成,结合输入、遗忘和输出门来确定哪些信息流入和流出记忆。加法动力学使得能够学习数据中的长程依赖关系。

在模型的每个时间步,DRAW使用相同的权重向量集来更新编码器和解码器中LSTM单元的单元状态。由于这个过程的循环性质,不清楚如何将批量归一化应用于这个模型:归一化单元状态会减弱它们传递信息的能力。幸运的是,权重归一化可以毫不费力地应用于每个LSTM单元的权重向量,我们发现这在实践中效果很好。

我们采用github.com/jbornschein… 提供的DRAW的Theano实现,并将其用于手写数字的MNIST数据集。然后我们对模型进行一个修改:我们对所有权重向量应用权重归一化。如图4所示,即使没有修改为正常参数化而调整的初始化方法和学习率,这也显著加快了优化过程的收敛速度。

权重归一化:简化神经网络优化的通用方法

图4 在训练过程中,DRAW在MNIST测试集上的边缘对数似然下界,包括标准实现以及我们使用权重归一化的修改。对于这个模型,100个epoch不足以收敛,但是使用权重归一化的实现显然比使用标准参数化更快地取得进展

5.4 强化学习:DQN

接下来,我们将权重归一化应用于在Atari学习环境上玩游戏的强化学习问题。我们使用的方法是由[文献21]提出的深度Q网络(DQN)。这是一种批量归一化不适合的应用:通过估计小批量统计数据引入的噪声会破坏学习过程。在不使用不切实际的大批量大小的情况下,我们无法让批量归一化在DQN上工作。相比之下,在这种情境下,权重归一化很容易应用,第3节的初始化方法也是如此。随机梯度学习使用带有0.5动量的Adamax。我们在{0.0001, 0.0003, 0.001, 0.003}中寻找最优学习率,通常发现0.0003适用于权重归一化,0.0001适用于正常参数化。我们还使用更大的小批量大小(64),我们发现这在我们的硬件(亚马逊Elastic Compute Cloud g2.2xlarge GPU实例)上更有效。除了这些变化,我们尽可能遵循关于参数设置和评估方法。然而,我们使用Python/Theano/Lasagne重新实现他们的工作,从github.com/spragunr/de…

图5显示了在Space Invaders上使用标准参数化和权重归一化的DQN获得的训练曲线。使用权重归一化,算法进展更快,达到更好的最终结果。表6显示了DQN在四个游戏中使用权重归一化获得的最终评估分数:平均来看,权重归一化提高了DQN的性能。

权重归一化:简化神经网络优化的通用方法

图5 在每个训练阶段之后,DQN在Space Invaders中获得的评估分数,包括标准参数化和使用权重归一化。两种情况下的学习率都被选择为最大化所获得的最高测试分数

权重归一化:简化神经网络优化的通用方法

图6 使用正常参数化或权重归一化的DQN获得的最高评估分数。Mnih等人指出的分数是[文献21]报告的分数:我们的正常参数化与他们的方法大致相当。分数差异可能是由于我们实现上的小差异造成的。具体来说,我们在Enduro上的分数与[文献21]报告的分数之间的差异可能是因为我们在评估过程中没有使用游戏时间限制

6.结论

我们提出了权重归一化,一种神经网络中权重向量的简单重新参数化,可以加速随机梯度下降优化的收敛。权重归一化应用于监督图像识别、生成建模和深度强化学习的四个不同模型中,显示出在各种应用中的一致优势。重新参数化方法易于应用,计算开销低,且不会在小批量样本中引入依赖关系,使其成为我们开发新的深度学习架构时的默认选择。

7 参考文献

[1] S. Amari. Neural learning in structured parameter spaces – natural Riemannian gradient. In Advances in Neural Information Processing Systems, pages 127–133. MIT Press, 1997.

[2] M. G. Bellemare, Y. Naddaf, J. Veness, and M. Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 06 2013.

[3] G. Desjardins, K. Simonyan, R. Pascanu, et al. Natural neural networks. In Advances in Neural Information Processing Systems, pages 2062–2070, 2015.

[4] X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. In International conference on artificial intelligence and statistics, pages 249–256, 2010.

[5] I. Goodfellow, Y. Bengio, and A. Courville. Deep learning. Book in preparation for MIT Press, 2016.

[6] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio. Maxout networks. In ICML, 2013.

[7] K. Gregor, I. Danihelka, A. Graves, and D. Wierstra. Draw: A recurrent neural network for image generation. arXiv preprint arXiv:1502.04623, 2015.

[8] R. Grosse and R. Salakhudinov. Scaling up natural gradient by sparsely factorizing the inverse fisher matrix. In ICML, pages 2304–2313, 2015.

[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015.

[10] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.

[11] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.

[12] D. Kingma and J. Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

[13] D. P. Kingma and M. Welling. Auto-Encoding Variational Bayes. Proceedings of the 2nd International Conference on Learning Representations, 2013.

[14] P. Krähenbühl, C. Doersch, J. Donahue, and T. Darrell. Data-dependent initializations of convolutional neural networks. arXiv preprint arXiv:1511.06856, 2015.

[15] A. Krizhevsky and G. Hinton. Learning multiple layers of features from tiny images, 2009.

[16] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeply-supervised nets. In Deep Learning and Representation Learning Workshop, NIPS, 2014.

[17] M. Lin, C. Qiang, and S. Yan. Network in network. In ICLR: Conference Track, 2014.

[18] J. Martens. Deep learning via hessian-free optimization. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 735–742, 2010.

[19] J. Martens and R. Grosse. Optimizing neural networks with kronecker-factored approximate curvature. arXiv preprint arXiv:1503.05671, 2015.

[20] D. Mishkin and J. Matas. All you need is a good init. arXiv preprint arXiv:1511.06422, 2015.

[21] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.

[22] B. T. Polyak and A. B. Juditsky. Acceleration of stochastic approximation by averaging. SIAM Journal on Control and Optimization, 30(4):838–855, 1992.

[23] T. Raiko, H. Valpola, and Y. LeCun. Deep learning made easier by linear transformations in perceptrons. In International Conference on Artificial Intelligence and Statistics, pages 924–932, 2012.

[24] D. J. Rezende, S. Mohamed, and D. Wierstra. Stochastic backpropagation and approximate inference in deep generative models. In ICML, pages 1278–1286, 2014.

[25] T. Salimans, D. P. Kingma, and M. Welling. Markov chain Monte Carlo and variational inference: Bridging the gap. In ICML, 2015. 9

[26] J. T. Springenberg, A. Dosovitskiy, T. Brox, and M. Riedmiller. Striving for simplicity: The all convolutional net. In ICLR Workshop Track, 2015.

[27] N. Srebro and A. Shraibman. Rank, trace-norm and max-norm. In Proceedings of the 18th Annual Conference on Learning Theory, pages 545—-560, 2005.

[28] I. Sutskever, J. Martens, G. Dahl, and G. Hinton. On the importance of initialization and momentum in deep learning. In ICML, pages 1139–1147, 2013.

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

使用Transformer进行sin和cos预测的代码修改和优化

2023-12-14 10:12:14

AI教程

基于深度学习的高精度安全背心检测识别系统

2023-12-14 10:23:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索