MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

释放双眼,带上耳机,听听看~!
本文详细介绍了MobileVIT的优势、网络结构和原理,适合对深度学习和轻量化神经网络感兴趣的读者阅读。

🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题

🍊专栏推荐:深度学习网络原理与实战

🍊近期目标:写好专栏的每一篇文章

🍊支持小苏:点赞👍🏼、收藏⭐、留言📩

 

MobileVIT原理详解篇

写在前面

Hello,大家好,我是小苏🧒🏽🧒🏽🧒🏽

​  在之前,我已经为大家介绍过各种基础的深度神经网络,像AlexNet、VGG、ResNet等等,也为大家介绍过一些轻量级的网络,如ShuffleNet系列、MobileNet系列等等,当然也做过一系列Transformer的教学,感兴趣的可以去我主页搜搜看喔。🍵🍵🍵

​  今天将为大家介绍一种新的网络结构——MobileVIT。🍄🍄🍄在具体介绍MobileVIT之前呢,我还是希望大家去阅读一些先验知识,链接如下:

​  如果你理解了上面四篇文章的话,那么其实MobileVIT对你来说会是很好理解的。当然如果你对Transformer感兴趣的话,可以再看看下面的两篇博客:

 

MobileVIT的优势

  在介绍MobileVIT的网络结构之前,我们先来聊聊为什么使用MobileVIT,即MobileVIT有什么优势?其实呢,在我看来,为什么使用MobileVIT,就是希望减少Transformer模型庞大的模型参数和较慢的推理速度,希望能将其部署在移动端。那么在论文中也有说到MobileVIT的优势,让我们一起来看看叭。

  • 更好的性能: 在给定的参数预算下,与现有的轻量化cnn相比,MobileViT模型在不同的移动视觉任务中获得了更好的性能。
  • 更好的泛化能力:泛化能力是指训练和评价指标之间的差距。对于两个具有类似训练指标的模型,具有更好的评估指标的模型更具有通用性,因为它可以更好地预测不可见的数据集。。之前的ViT变体(带卷积和不带卷积)与CNN相比,即使有广泛的数据增强,其泛化能力也很差,MobileViT显示出更好的泛化能力。如下图所示,MobileViT显示了与cnn类似的泛化能力。

MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

  • 更好的鲁棒性:一个好的模型应该对超参数具有鲁棒性,因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同,MobileViT模型使用基本增强训练,对L2正则化不太敏感。

 

MobileVIT网络结构

​ 论文中先是帮我们回顾了VIT的结构,如下图所示:

MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

​  你或与会发现这个图和我介绍VIT的原理时介绍的有些许差别,但是它们表达的含义都是一样的。首先会将图片划分成一个个patch,然后通过linear层将其转换成Token的形式,接着会加上位置编码并通过一系列Transformer结构,最后通过Linear层得到最终的输出。你对比一下上图和VIT中的结构,你会发现基本一致,主要是这里少加了Class token。

​  上文回顾了一下VIT,下面就让我们直接来看一看MobileVIT的整体结构叭~~~🌵🌵🌵如下图所示:

MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程
  这个图画的非常简洁明了,我觉得大家可能存在疑惑的地方应该只有两个地方,第一个是这个MV2MV2 ↓2是什么结构?另一个就MobileViT block是什么结构?下面就让我们一个一个来看叭🌽🌽🌽

  • MV2MV2 ↓2结构

    这个结构其实就是MobileNetv2中的Inverted Residuals结构,不熟悉的点击☞☞☞了解详情。🌼🌼🌼这里我再简单帮大家回忆一下,Inverted Residuals的结构大致如下,即1×1卷积升维->3x3DW卷积->1×1卷积降维。🍚🍚🍚

    MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

    细心的朋友应该发现了MV2MV2 ↓2有两个结构,这个Inverted Residuals就一个结构呀,怎么对应的呀?其实呢,MV2 ↓2表示进行了2倍下采样,MV2MV2 ↓2的结构分别如下:

    MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

  • MobileViT block结构

MobileViT block结构如下图所示:

MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

​  我们先来一些看一下上图,首先对于一个H×W×CH×W×C的特征图X,首先经过一个Local representations层,其由一个n×nn×n的卷积和一个1×11×1的卷积构成,1×11×1的卷积用来调整通道数,经过Local representations层后得到特征图尺寸为H×W×dH×W×d。跟在Local representations层后面的是Transformers as Convolution层,这一层是一个Unfold->Transformer->Fold结构,也是MobileVIT的重中之重,我们后面再详细为大家介绍,现在你只要知道经过这个Transformers as Convolution层后特征图的尺寸没有发生变换,仍然是H×W×dH×W×d。之后会通过1×11×1的卷积将特征图通道数调整为CC,即特征图尺寸变换成H×W×CH×W×C。最后会通过shortcut分支和原始特征图进行拼接,并通过一个n×nn×n的卷积得到最后的输出特征图。🍋🍋🍋

​  相信你已经知道了MobileViT block的大体结构,但是对于Transformers as Convolution层还是一头雾水,下面就让我带领大家一起来看看这一部分。🍗🍗🍗

​  这一部分分为三个结构,Unfold、Transformer以及Fold。先来说说Unfold和fold的操作叭。其实呀,这两个操作只是对数据的shape做了一些改变,让其符合Self-Attention结构的输入。那它们是怎么进行reshape的呢,如下图所示:

MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

                  图片来源于B站霹雳吧啦Wz

​  我想这里你应该会有疑问,这里为什么分patch操作,并弄不同的颜色表示呢?其实这就和后面的Transformer有关了。这里的Transformer结构相较与我之前介绍的有所改变,它会先对特征图进行patch划分,如下图划分patch大小为2×22×2,即每个Patch由4个像素构成。在进行Transformer的时候,图中的相同颜色的小色块会进行Attention,而不同颜色的则不会进行Attention操作,这样会减少计算量。🍦🍦🍦

​  很多人可能都会问为什么要这么做,以及这么做的原因是什么。我给出霹雳吧啦Wz的看法,我认为是很有道理的:对于图像数据本身就存在大量的数据冗余,比如对于较浅层的特征图(H, W下采样倍率较低时),相邻像素间信息可能没有太大差异,如果每个Token做Attention的时候都要去看下相邻的这些像素,个人感觉有些浪费算力。这里并不是说看相邻的像素没有意义,只是说在分辨率较高的特征图上收益可能很低,增加的计算成本远大于Accuracy上的收益。而且前面已经通过nxn的卷积层进行局部建模了,进行全局建模时就没必要再看这么细了。🍍🍍🍍

MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

                   图片来源于B站霹雳吧啦Wz

 

MobileVIT实验效果

​  下图展示了MobileVIT在ImageNet上的效果,总的来说,MobileViTs易于优化和鲁棒性强。因此,MobileViT 可以很容易地应用于新的任务和数据集。

MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

 

小结

​  MobileVIT的原理部分就为大家介绍到这里啦,如果有不明白的地方欢迎评论区交流讨论。在下一节我将为大家介绍MobileVIT的代码实现,会进一步辅助大家理解MobileVIT的原理,一起加油叭~~~🥂🥂🥂

 
 

如若文章对你有所帮助,那就🛴🛴🛴

         MobileVIT原理详解 | 深度学习网络 | 轻量化神经网络 | 移动端部署 | AI教程

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

MCMC采样方法概述

2023-12-19 2:30:14

AI教程

Amazon SageMaker: 一站式机器学习模型构建、训练和部署

2023-12-19 4:40:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索