释放双眼，带上耳机，听听看~！

本文介绍了PyTorch中Transformer模型的具体实现，包括模型搭建和使用方法。

I. 前言

前面已经写了很多关于时间序列预测的文章，这些文章中都没有涉及到近些年来比较火的Attention机制，随Attention机制一起提出的是transformer模型，关于transformer模型的原理网上各种讲解很多，这里就不具体描述了，有机会再写。

II. Transformer

PyTorch封装了Transformer的具体实现，如果导入失败可以参考：torch.nn.Transformer导入失败。

Transformer模型搭建如下：

class TransformerModel(nn.Module):
    def __init__(self, args):
        super(TransformerModel, self).__init__()
        self.args = args
        # embed_dim = head_dim * num_heads?
        self.input_fc = nn.Linear(args.input_size, args.d_model)
        self.output_fc = nn.Linear(args.input_size, args.d_model)
        self.pos_emb = PositionalEncoding(args.d_model)
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=args.d_model,
            nhead=8,
            dim_feedforward=4 * args.d_model,
            batch_first=True,
            dropout=0.1,
            device=device
        )
        decoder_layer = nn.TransformerDecoderLayer(
            d_model=args.d_model,
            nhead=8,
            dropout=0.1,
            dim_feedforward=4 * args.d_model,
            batch_first=True,
            device=device
        )
        self.encoder = torch.nn.TransformerEncoder(encoder_layer, num_layers=5)
        self.decoder = torch.nn.TransformerDecoder(decoder_layer, num_layers=5)
        self.fc = nn.Linear(args.output_size * args.d_model, args.output_size)
        self.fc1 = nn.Linear(args.seq_len * args.d_model, args.d_model)
        self.fc2 = nn.Linear(args.d_model, args.output_size)

    def forward(self, x):
        # print(x.size())  # (256, 24, 7)
        y = x[:, -self.args.output_size:, :]
        # print(y.size())  # (256, 4, 7)
        x = self.input_fc(x)  # (256, 24, 128)
        x = self.pos_emb(x)   # (256, 24, 128)
        x = self.encoder(x)
        # 不经过解码器
        x = x.flatten(start_dim=1)
        x = self.fc1(x)
        out = self.fc2(x)
        # y = self.output_fc(y)   # (256, 4, 128)
        # out = self.decoder(y, x)  # (256, 4, 128)
        # out = out.flatten(start_dim=1)  # (256, 4 * 128)
        # out = self.fc(out)  # (256, 4)

        return out

初始时的数据输入维度为7，也就是每个时刻的负荷值以及6个环境变量。在Transformer的原始论文中，文本的嵌入维度为512，而且PyTorch规定nhead数和d_model也就是嵌入维度必须满足整除关系，因此首先将原始数据从7维映射到d_model维度：

x = self.input_fc(x)

其中input_fc：

self.input_fc = nn.Linear(args.input_size, args.d_model)

然后对原始输入进行位置编码：

x = self.pos_emb(x)

然后经过编码层：

x = self.encoder(x)

得到的输出和输入维度一致。

原始Transformer中的解码器效果很差，因此这里直接将编码器的编码结果经过两个线性层得到输出：

x = x.flatten(start_dim=1)
x = self.fc1(x)
out = self.fc2(x)

III. 代码实现

3.1 数据处理

利用前24小时的负荷值+环境变量预测后12个时刻的负荷值，数据处理和前面一致。

3.2 模型训练/测试

和前文一致。

3.3 实验结果

训练50轮，MAPE为7.09%：
Transformer模型PyTorch具体实现

IV. 源码及数据

后面将陆续公开~

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Transformer模型PyTorch具体实现

I. 前言

II. Transformer

III. 代码实现

3.1 数据处理

3.2 模型训练/测试

3.3 实验结果

IV. 源码及数据

ChatGPT：未来的人工智能助手

线性回归入门与多项式回归实现

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

I. 前言

II. Transformer

III. 代码实现

3.1 数据处理

3.2 模型训练/测试

3.3 实验结果

IV. 源码及数据

ChatGPT：未来的人工智能助手

线性回归入门与多项式回归实现

pytorch保存与加载模型详解

PyTorch安装与基础知识

深度信念网络的核心概念、结构和Pytorch实战

PyTorch 1.13 发布：新特性和库更新详解