基于Transformer+自回归预训练的视觉模型训练方法

释放双眼，带上耳机，听听看~！

了解基于Transformer+自回归预训练的视觉模型训练方法，探讨其模型结构、实验结果和优化目标，以及对图像分类任务的影响。该方法可能成为图像大模型预训练的一种主要方式。

1、背景

在GPT等大模型出现后，语言模型这种Transformer+自回归建模的方式，也就是预测next token的预训练任务，取得了非常大的成功。那么，这种自回归建模方式能不能在视觉模型上取得比较好的效果呢？今天介绍的这篇文章，就是Apple近期发表的基于Transformer+自回归预训练的方式训练视觉模型的文章，下面给大家展开介绍一下这篇工作。

基于Transformer+自回归预训练的视觉模型训练方法图片

论文标题：Scalable Pre-training of Large Autoregressive Image Models

下载地址：https://arxiv.org/pdf/2401.08541v1.pdf

开源代码：https://github.com/apple/ml-aim

2、模型结构

模型结构整体采用Transformer，优化目标采用语言模型中的next token prediction。在模型结构上，主要的修改有3个方面。首先是相比ViT这种双向attention，本文使用的是GPT这种单向attention，即每个位置的元素只能和前面的元素计算attention。

基于Transformer+自回归预训练的视觉模型训练方法图片

其次是引入了prefix，在Transformer前面的输入加了多个prefix token，这部分token使用的是双向attention。这个主要作用是预训练和下游应用的一致性，下游都是类似ViT的双向attention使用方法，预训练增加prefix双向attention，可以让模型适应下游任务。

基于Transformer+自回归预训练的视觉模型训练方法图片

最后是在模型最终输出MLP层的优化。原来的预训练方法，一般会丢弃掉MLP层，在下游finetune使用一个新的MLP，防止预训练的MLP过于倾向于预训练任务导致下游任务效果下降。而本文中，作者采用的方法是每个patch都使用一个独立的MLP，对于图像整体的表征，也采用各个patch保证和attention融合的方式，代替一般的pooling，提升预训练MLP head在下游任务的可用性。

在优化目标上，文中尝试了两种方法，第一种是直接拟合patch像素，用MSE进行预测。第二种是提前对图像patch进行tokenize，转换成分类任务，用交叉熵损失。不过在文中后续的消融实验中发现，第二种方法虽然也可以让模型正常训练，但是效果并不如基于像素粒度MSE的效果更好。

3、实验结果

文中的实验部分详细分析了这种基于自回归的图像模型的效果，以及各个部分对于效果的影响。

首先，随着训练的进行，下游的图像分类任务效果越来越好了，说明这种预训练方式确实能学到良好的图像表征信息。

基于Transformer+自回归预训练的视觉模型训练方法图片

在训练数据上，使用小数据集的训练会导致overfitting，而使用DFN-2B虽然最开始验证集loss较大，但是没有明显的过拟合问题。

基于Transformer+自回归预训练的视觉模型训练方法图片

对于模型各个模块的设计方式，文中也进行了详细的消融实验分析。

基于Transformer+自回归预训练的视觉模型训练方法图片

在最终的效果对比上，AIM取得了非常不错的效果，这也验证了这种自回归的预训练方式在图像上也是可用的，可能会成为后续图像大模型预训练的一种主要方式。

基于Transformer+自回归预训练的视觉模型训练方法

图片

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

基于Transformer+自回归预训练的视觉模型训练方法

1、背景

2、模型结构

3、实验结果

首款聊天机器人Grok疑似抄袭事件揭秘｜AI模型坍塌警示

人工智能更新：Act Anywhere、GALA和其他四大框架和模型汇总

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

1、背景

2、模型结构

3、实验结果

首款聊天机器人Grok疑似抄袭事件揭秘｜AI模型坍塌警示

人工智能更新：Act Anywhere、GALA和其他四大框架和模型汇总

探讨近期火爆的大模型和自动驾驶概念

自动驾驶中基于 Transformer 的模型和硬件加速分析

Octopus：让AI模型成为GTA五星玩家

HELPER：基于大语言模型和视觉模型的智能语音助手