释放双眼，带上耳机，听听看~！

了解如何通过隐藏层和激活函数将线性模型转化为非线性的多层感知机，深度学习的基础概念和代码实现。

隐藏层

我们可以通过在网络中加入一个或多个隐藏层来克服线性模型的限制，使其能处理更普遍的函数关系类型。要做到这一点，最简单的方法是将许多全连接层堆叠在一起。每一层都输出到上面的层，直到生成最后的输出。我们可以把前层看作表示，把最后一层看作线性预测器。这种架构通常称为多层感知机（multilayer perceptron），通常缩写为MLP。

多层感知机：从线性到非线性的过程、

这个多层感知机有4个输入，3个输出，其隐藏层包含5个隐藏单元。输入层不涉及任何计算，因此使用此网络产生输出只需要实现隐藏层和输出层的计算。因此，这个多层感知机中的层数为2。注意，这两个层都是全连接的。每个输入都会影响隐藏层中的每个神经元，而隐藏层中的每个神经元又会影响输出层中的每个神经元。

从线性到非线性的过程

多层感知机：从线性到非线性的过程

为了发挥多层架构的潜力，我们还需要一个额外的关键要素：在仿射变换之后对每个隐藏单元应用非线性的激活函数（activation 函数）。激活函数的输出被称为活性值（激活）。一般来说，有了激活函数，就不可能再将我们的多层感知机退化成线性模型。
多层感知机：从线性到非线性的过程

多层感知机：从线性到非线性的过程

激活函数

激活函数（activation function）通过计算加权和并加上偏置来确定神经元是否应该被激活，它们将输入信号转换为输出的可微运算。大多数激活函数都是非线性的。由于激活函数是深度学习的基础，下面简要介绍一些常见的激活函数。

ReLU函数：

最受欢迎的激活函数是修正线性单元（Rectified linear unit，ReLU）， 因为它实现简单，同时在各种预测任务中表现良好。 ReLU提供了一种非常简单的非线性变换。

多层感知机：从线性到非线性的过程

sigmoid函数：

对于一个定义域在中的输入， sigmoid函数将输入变换为区间（0， 1）上的输出。因此，sigmoid通常称为挤压函数（挤压函数）：它将范围（-inf， inf）中的任意输入压缩到区间（0， 1）中的某个值。

多层感知机：从线性到非线性的过程

tanh函数：

与sigmoid函数类似， tanh（双曲正切）函数也能将其输入压缩转换到区间（-1， 1)上。

多层感知机：从线性到非线性的过程

多层感知机代码实现

这里的实现和第三章的没有什么区别，先读取数据，初始化模型参数然后与前面不同的是要在这里加一步激活函数的定义，我们使用的是ReLU函数，再定义模型和损失函数，这里的损失函数仍是交叉熵然后使用优化算法（仍然是SGD）最后训练模型。

手动实现一个简单的多层感知机是很容易的。然而如果有大量的层，从零开始实现多层感知机会变得很麻烦（例如，要命名和记录模型的参数）。

具体代码可以到这里查看：HeteroCat-blog/动手学深度学习代码 at main · HeteroCat/HeteroCat-blog (github.com)

多层感知机代码简洁实现

import torch
from torch import nn
from d2l import torch as d2l


net = nn.Sequential(nn.Flatten(),
                    nn.Linear(784, 256),
                    nn.ReLU(),
                    nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights)

batch_size, lr, num_epochs = 256, 0.1, 10
loss = nn.CrossEntropyLoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=lr)

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

这里我们可以看到我们的网络是两次的linear,还有一个Relu函数。我们的训练批量是256，学习率是0.1，学习的轮次是10次。loss是交叉熵，优化函数是SGD（小批量随机梯度），加载数据，最后调用d2l运行训练。
多层感知机：从线性到非线性的过程

误差和拟合

训练误差（training error）是指，模型在训练数据集上计算得到的误差。泛化误差（generalization error）是指，模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望。

我们要注意两种常见的情况。首先，我们要注意这样的情况：训练误差和验证误差都很严重，但它们之间仅有一点差距。如果模型不能降低训练误差，这可能意味着模型过于简单（即表达能力不足），无法捕获试图学习的模式。此外，由于我们的训练和验证误差之间的泛化误差很小，我们有理由相信可以用一个更复杂的模型降低训练误差。这种现象被称为欠拟合（underfitting）。

另一方面，当我们的训练误差明显低于验证误差时要小心，这表明严重的过拟合（overfitting）。注意，过拟合并不总是一件坏事。特别是在深度学习领域，众所周知，最好的预测模型在训练数据上的表现往往比在保留（验证）数据上好得多。最终，我们通常更关心验证误差，而不是训练误差和验证误差之间的差距。
多层感知机：从线性到非线性的过程

权重衰减

在训练参数化机器学习模型时， 权重衰减（weight decay）是最广泛使用的正则化的技术之一，它通常也被称为L2正则化。

多层感知机：从线性到非线性的过程
总的来说：

正则化是处理过拟合的常用方法：在训练集的损失函数中加入惩罚项，以降低学习到的模型的复杂度。
保持模型简单的一个特别的选择是使用L2惩罚的权重衰减。这会导致学习算法更新步骤中的权重衰减。
权重衰减功能在深度学习框架的优化器中提供。
在同一训练代码实现中，不同的参数集可以有不同的更新行为。

前反向传播

前向传播（前向传播或前向传递）指的是：按顺序（从输入层到输出层）计算和存储神经网络中每层的结果。

多层感知机：从线性到非线性的过程
反向传播（backward propagation或backpropagation）指的是计算神经网络参数梯度的方法。简言之，该方法根据微积分中的链式规则，按相反的顺序从输出层到输入层遍历网络。该算法存储了计算某些参数梯度时所需的任何中间变量（偏导数）。

暂退法

暂退法是干嘛的呢，就是过拟合之后怎么办。能咋办呢扔掉一些东西呗，下面这张图就能清楚的解释了。

多层感知机：从线性到非线性的过程
我们需要做的只是在模型的搭建那里给他设置一些Dropout层，其他就是一样的了。大概代码就是加下面这一行

nn.Dropout(dropout1)

模型稳定性

梯度消失（sigmoid函数）和梯度爆炸（矩阵乘积）是深度网络中常见的问题。在参数初始化时需要非常小心，以确保梯度和参数可以得到很好的控制。
需要用启发式的初始化方法来确保初始梯度既不太大也不太小。
ReLU激活函数缓解了梯度消失问题，这样可以加速收敛。
随机初始化是保证在进行优化前打破对称性的关键。
Xavier初始化表明，对于每一层，输出的方差不受输入数量的影响，任何梯度的方差不受输出数量的影响。

多层感知机：从线性到非线性的过程

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

多层感知机：从线性到非线性的过程

隐藏层

从线性到非线性的过程

激活函数

ReLU函数：

sigmoid函数：

tanh函数：

多层感知机代码实现

多层感知机代码简洁实现

误差和拟合

权重衰减

前反向传播

暂退法

模型稳定性

DocArray 和 Redis 联手，让推荐系统飞起来

基于相对位置预训练的语义分割网络研究

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

隐藏层

从线性到非线性的过程

激活函数

ReLU函数：

sigmoid函数：

tanh函数：

多层感知机代码实现

多层感知机代码简洁实现

误差和拟合

权重衰减

前反向传播

暂退法

模型稳定性

DocArray 和 Redis 联手，让推荐系统飞起来

基于相对位置预训练的语义分割网络研究

深度神经网络大家族一览

GPT-4内幕大揭露！1.8万亿巨量参数，13万亿token训练，斥资6300万美元

🤗 Diffusers 庆祝一周年！| Diffusers 一周年庆典

Facechain AI人物写真生成教程：3张照片即可打造个性形象