2

MobileVIT原理详解篇

 1 month ago
source link: https://blog.51cto.com/u_15379667/10680858
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题

🍊专栏推荐:深度学习网络原理与实战

🍊近期目标:写好专栏的每一篇文章

🍊支持小苏:点赞👍🏼、收藏⭐、留言📩

MobileVIT原理详解篇

Hello,大家好,我是小苏🧒🏽🧒🏽🧒🏽

  在之前,我已经为大家介绍过各种基础的深度神经网络,像AlexNet、VGG、ResNet等等,也为大家介绍过一些轻量级的网络,如ShuffleNet系列、MobileNet系列等等,当然也做过一系列Transformer的教学,感兴趣的可以去我主页搜搜看喔。🍵🍵🍵

  今天将为大家介绍一种新的网络结构——MobileVIT。🍄🍄🍄在具体介绍MobileVIT之前呢,我还是希望大家去阅读一些先验知识,链接如下:

  • CV攻城狮入门VIT(vision transformer)——近年超火的Transformer你再不了解就晚了! 🍁🍁🍁
  • CV攻城狮入门VIT(vision transformer)之旅——VIT原理详解篇 🍁🍁🍁
  • CV攻城狮入门VIT(vision transformer)之旅——VIT代码实战篇🍁🍁🍁
  • 详细且通俗讲解轻量级神经网络——MobileNets【V1、V2、V3】🍁🍁🍁

  如果你理解了上面四篇文章的话,那么其实MobileVIT对你来说会是很好理解的。当然如果你对Transformer感兴趣的话,可以再看看下面的两篇博客:

  • Swin Transformer原理详解篇🍀🍀🍀
  • Swin Transformer代码实战篇🍀🍀🍀

MobileVIT的优势

在介绍MobileVIT的网络结构之前,我们先来聊聊为什么使用MobileVIT,即MobileVIT有什么优势?其实呢,在我看来,为什么使用MobileVIT,就是希望减少Transformer模型庞大的模型参数和较慢的推理速度,希望能将其部署在移动端。那么在论文中也有说到MobileVIT的优势,让我们一起来看看叭。

  • 更好的性能: 在给定的参数预算下,与现有的轻量化cnn相比,MobileViT模型在不同的移动视觉任务中获得了更好的性能。
  • 更好的泛化能力:泛化能力是指训练和评价指标之间的差距。对于两个具有类似训练指标的模型,具有更好的评估指标的模型更具有通用性,因为它可以更好地预测不可见的数据集。。之前的ViT变体(带卷积和不带卷积)与CNN相比,即使有广泛的数据增强,其泛化能力也很差,MobileViT显示出更好的泛化能力。如下图所示,MobileViT显示了与cnn类似的泛化能力。
MobileVIT原理详解篇_卷积
  • 更好的鲁棒性:一个好的模型应该对超参数具有鲁棒性,因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同,MobileViT模型使用基本增强训练,对L2正则化不太敏感。

MobileVIT网络结构

论文中先是帮我们回顾了VIT的结构,如下图所示:

MobileVIT原理详解篇_计算机视觉_02

  你或与会发现这个图和我介绍 VIT的原理时介绍的有些许差别,但是它们表达的含义都是一样的。首先会将图片划分成一个个patch,然后通过linear层将其转换成Token的形式,接着会加上位置编码并通过一系列Transformer结构,最后通过Linear层得到最终的输出。你对比一下上图和VIT中的结构,你会发现基本一致,主要是这里少加了Class token。


  上文回顾了一下VIT,下面就让我们直接来看一看MobileVIT的整体结构叭~~~🌵🌵🌵如下图所示:

MobileVIT原理详解篇_泛化_03

这个图画的非常简洁明了,我觉得大家可能存在疑惑的地方应该只有两个地方,第一个是这个MV2MV2 ↓2是什么结构?另一个就MobileViT block是什么结构?下面就让我们一个一个来看叭🌽🌽🌽

  • MV2MV2 ↓2结构
    这个结构其实就是MobileNetv2中的Inverted Residuals结构,不熟悉的点击☞☞☞了解详情。🌼🌼🌼这里我再简单帮大家回忆一下,Inverted Residuals的结构大致如下,即1x1卷积升维->3x3DW卷积->1x1卷积降维。🍚🍚🍚

细心的朋友应该发现了MV2MV2 ↓2有两个结构,这个Inverted Residuals就一个结构呀,怎么对应的呀?其实呢,MV2 ↓2表示进行了2倍下采样,MV2MV2 ↓2的结构分别如下:

MobileVIT原理详解篇_计算机视觉_04
  • MobileViT block结构

MobileViT block结构如下图所示:

MobileVIT原理详解篇_人工智能_05

  我们先来一些看一下上图,首先对于一个MobileVIT原理详解篇_人工智能_06的特征图X,首先经过一个Local representations层,其由一个MobileVIT原理详解篇_卷积_07的卷积和一个MobileVIT原理详解篇_MobileVIT_08的卷积构成,MobileVIT原理详解篇_MobileVIT_08的卷积用来调整通道数,经过Local representations层后得到特征图尺寸为MobileVIT原理详解篇_泛化_10。跟在Local representations层后面的是Transformers as Convolution层,这一层是一个Unfold->Transformer->Fold结构,也是MobileVIT的重中之重,我们后面再详细为大家介绍,现在你只要知道经过这个Transformers as Convolution层后特征图的尺寸没有发生变换,仍然是MobileVIT原理详解篇_泛化_10。之后会通过MobileVIT原理详解篇_MobileVIT_08的卷积将特征图通道数调整为MobileVIT原理详解篇_泛化_13,即特征图尺寸变换成MobileVIT原理详解篇_人工智能_06。最后会通过shortcut分支和原始特征图进行拼接,并通过一个MobileVIT原理详解篇_卷积_07的卷积得到最后的输出特征图。🍋🍋🍋

  相信你已经知道了MobileViT block的大体结构,但是对于Transformers as Convolution层还是一头雾水,下面就让我带领大家一起来看看这一部分。🍗🍗🍗

  这一部分分为三个结构,Unfold、Transformer以及Fold。先来说说Unfold和fold的操作叭。其实呀,这两个操作只是对数据的shape做了一些改变,让其符合Self-Attention结构的输入。那它们是怎么进行reshape的呢,如下图所示:

MobileVIT原理详解篇_MobileVIT_16

图片来源于B站霹雳吧啦Wz

  我想这里你应该会有疑问,这里为什么分patch操作,并弄不同的颜色表示呢?其实这就和后面的Transformer有关了。这里的Transformer结构相较与我之前介绍的有所改变,它会先对特征图进行patch划分,如下图划分patch大小为MobileVIT原理详解篇_泛化_17,即每个Patch由4个像素构成。在进行Transformer的时候,图中的相同颜色的小色块会进行Attention,而不同颜色的则不会进行Attention操作,这样会减少计算量。🍦🍦🍦

  很多人可能都会问为什么要这么做,以及这么做的原因是什么。我给出霹雳吧啦Wz的看法,我认为是很有道理的:对于图像数据本身就存在大量的数据冗余,比如对于较浅层的特征图(H, W下采样倍率较低时),相邻像素间信息可能没有太大差异,如果每个Token做Attention的时候都要去看下相邻的这些像素,个人感觉有些浪费算力。这里并不是说看相邻的像素没有意义,只是说在分辨率较高的特征图上收益可能很低,增加的计算成本远大于Accuracy上的收益。而且前面已经通过nxn的卷积层进行局部建模了,进行全局建模时就没必要再看这么细了。🍍🍍🍍

MobileVIT原理详解篇_人工智能_18

图片来源于B站霹雳吧啦Wz

MobileVIT实验效果

  下图展示了MobileVIT在ImageNet上的效果,总的来说,MobileViTs易于优化和鲁棒性强。因此,MobileViT 可以很容易地应用于新的任务和数据集。

MobileVIT原理详解篇_计算机视觉_19

  MobileVIT的原理部分就为大家介绍到这里啦,如果有不明白的地方欢迎评论区交流讨论。在下一节我将为大家介绍MobileVIT的代码实现,会进一步辅助大家理解MobileVIT的原理,一起加油叭~~~🥂🥂🥂

如若文章对你有所帮助,那就🛴🛴🛴

MobileVIT原理详解篇_卷积_20

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK