9

TTFNet | 最大程度提高训练效率的实时目标检测(附源码)

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ%3D%3D&%3Bmid=2247493513&%3Bidx=1&%3Bsn=057c9997bf63ee35d891ae7ac42da031
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

计算机视觉研究院专栏

作者:Edison_G

JvUNb2Z.gif!mobile

目标检测模型的training time, inference speed, 和accuracy之间寻找trade off,重点关注如何在保持另外两个指标的情况下,减少模型的训练时间。

启示:

1、单纯的数据扩增能增加数据数量,但也会降低数据质量,导致需更多的训练时间才会收敛;

2、根据Linear Scaling Rule,学习率与batchsize一般情况下呈线性正比,增加高质量的sample也能起到类似batchsize的作用,从而可以提高学习率,缩短模型训练时间;

3、在精度方面,实验显示res18下与CenterNet都在COCO上达到了28.1的mAP,但0.5的mAP比CenterNet低了1个点左右,0.75的mAP比CenterNet高了0.6个点,所以猜测TTFNet可能检测出的bbox更加紧凑,因此提高了mAP。

关注并星标

从此不迷路

计算机视觉研究院

2EnY3my.png!mobile

jee2Uv2.jpg!mobile
计算机视觉研究院

长按扫描维码

关注我们回复“

TTFNet ” 获取论文

计算机视觉研究院

BFrUVna.png!mobile

简要

现在目标检测器很少能同时实现训练时间短,推理速度快,精度高。为了达到平衡,作者就提出了Train-Friendly Network(TTFNet)。作者从light-head, single-stage, and anchor-free设计开始,这使得推理速度更快。然后作者重点缩短训练时间。 

我们注意到,从注释框中编码更多的训练样本与增加批处理大小具有相似的作用,这有助于扩大学习速率和加速训练过程。为此作者就介绍了一种利用高斯核对训练样本进行编码的新方法。此外,为了更好地利用信息,还设计了主动样本权重。在MSCOCO上的实验表明,TTFNet在平衡训练时间、推理速度和精度方面具有很大的优势。它比以前的实时 检测器减少了7倍以上的训练时间,同时保持了最先进的性能。此外,super-fast版本的TTFNet-18和TTFNet-53可以分别是SSD300和YOLOv3的训 练时间不到十分之一。

bYRVNjN.png!mobile

BFrUVna.png!mobile

历史回顾&背景

目标检测器的精度,推理速度,训练时间等方面都得到了广泛关注和不断提高。然而,很少工作可以在它们之间取得良好的平衡。 直观地说,推理速度较快的检测器应该有较短的训练时间。 然而,事实上大多数实时检测器比非实时检测器需要更长的训练时间。 高精度检测器可以大致分为两种类型之——它们的推理速度慢,而且需要大量的训练时间。

第一类网络( Huang, L.; Yang, Y.; Deng, Y.; and Yu, Y. 2015. Densebox: Unifying landmark localization with end to end object detection. )一般依靠heavy检测头或复杂后处理。虽然这些设计有利于精度的提高和快速收敛,但它们显著降低了推理速度。因此,这种类型的网络通常不适合实时应用。

为了加快推理,研究人员努力简化检测头和后处理,同时保持准确性( Zoph, B., and Le, Q. V. 2017. Neural architecture search with reinforcement learning. )。 在最近的一项名为CenterNet的研究中,推理时间进一步缩短,几乎与主干网络消耗的时间相同。 然而,所有这些网络不可避免地需要很长的训练时间。 这是因为这些网络由于简化而难以训练,使得它们在很大程度上依赖于数据增强和较长的训练时间。 例如,CenterNet需要在公共数据集MSCOCO上进行140个epochs训练。 相比之下,第一类网络通常需要12个ep ochs

BFrUVna.png!mobile

根据Linear Scaling Rule,可以通过增大batchsize提高learning rate,然而仔细分析SGD的公式,我们也可以通过增加高质量的正样本个数来起到同样的作用。也就是不仅可以增大n,也可以增大m。

回顾随机梯度下降(SGD)的公式,权重更新表达式可以描述为:

f6zYrim.png!mobile

至于目标检测,图像x可以包含多个注释框,这些框将被编码到训练样本s∈Sx。Mx=|Sx|表示图像x中所有框产生的样本数, 因此上公式可以表述为:

vayIFrY.png!mobile

为了简化,假设mx对于小批量B中的每个图像x是相同的。关注个体训练样本s,上式可以改写为:

imm22iB.png!mobile

线性缩放规则是在经验中发现的,如果批处理大小乘以k,则学习速率应该乘以k,除非网络正在迅速变化,或者采用非常大的mini-batch批处理。也就是说,用小的mini-batch Bj和学习速率η执行k迭代基本上相当于用大的mini-batch ∪ j∈[0,k) Bj和学习速率kη执行1迭代,只有当我们可以假设:

y6jAVjR.png!mobile

这个条件通常是在大规模的真实世界数据下满足的。

ea2MJbA.png!mobile

较大的学习速率不能帮助 CenterNet 更快地收敛,并且删除数据增强会导致性能变差。根据上面的结论,我认为这是因为CenterNet在训练过程中只在目标中心编码一个单一的回归样本。这种设计使得CenterNet在很大程度上依赖于数据增强和较长的训练时间,导致不友好的训练时间。 

为了减少网络对数据增强的依赖,同时减少训练时间,我认为需要更好的编码回归样本的策略。在这一动机的指导下,作者提出新的方法,在 ablation研究中进行更全面的实验可以进一步验证新方法的优越性。

BFrUVna.png!mobile

新方法

Yn2aAr7.png!mobile

TTFNet的体系结构如上图所示。在实验中使用ResNet和DarkNet作为主干网络。 主干网络提取的特征被采样到原始图像的1/4分辨率,这是通过Modulated Deformable Convolution(MDCN)和上采样层实现的。在MDCN层之后是批归一化(BN)和ReLU。上采样的特征然后分别通过两个头部为不同的目标。 

检测头在物体中心附近的位置产生高激活,而回归头直接预测从这些位置到box四面的距离。由于目标中心对应于特征映射处的局部最大值,因此可以在2D最大池的帮助下安全地抑制非最大值。然后利用局部最大值的位置来收集回归结果。 

最后,可以得到检测结果。 新提出的方法有效地使用了大中型目标中包含的注释信息,但对于包含很少信息的小目标,推广是有限的。为了在较短的训练计划中提高小目标的检测性能,添加了shortcut connections来引入高分辨率但低级别的特征。shortcut connections从主干的2级,3级和4级引入特征,每个连接由3×3卷积层实现。第二、第三和第四阶段的层数设置为3、2和1,除了shortcut connections中的最后一层外,ReLU遵循在每个层。

对比CenterNet,主要在以下两方面进行改进:

center localization

对于Center点的位置回归,两个方法都用到了高斯核来增加正样本的数量,也都用到了Focal Loss。 但是CenterNet核CornerNet一样,高斯核里的参数sigema只和bbox的面积有关,没有充分考虑bbox的纵横比,而TFFNet为长和宽分别设置了sigema,从而更加合适。

iMfIfmb.png!mobile

size regression

这部分才是本此作者提出的重点,也是增加高质量样本的实际做法。 C enterNet 只把heatmap上Object的Center点以及相邻的4个点作为正样本进行物体的大小回归监督,并且只回归bbox的w和h。

而TFFNet继续采取高斯核的方式增加正样本的个数,同时每个正样本回归对应点到bbox四个边的距离。

Rbe6Zbb.png!mobile

BFrUVna.png!mobile

实验

zmUNrq3.png!mobile

不同核结果

7ruQjeE.png!mobile

shortcut connections 中使用不同设置时,速度-准确性权衡如下

m6buqy2.png!mobile

与其他性能比较

BneUziA.png!mobile

TTFNet vs. CenterNet

mMRrYb.png!mobile

可视化

22MfAnr.png!mobile

/End.

我们开创“ 计算机视觉协会 ”知识星球一年有余,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

ANvaYjr.jpg!mobile

如果想加入我们“ 计算机视觉研究院 ”,请扫二维码加入我们。我们会按照你的需求将你拉入对应的学习群!

计算机视觉研究院 主要涉及 深度学习 领域,主要致力于 人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等 研究方向。 研究院 接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重” 研究 “。之后我们会针对相应领域分享实践过程,让大家真正体会 摆脱理论 的真实场景,培养爱动手编程爱动脑思考的习惯!

jee2Uv2.jpg!mobile
计算机视觉研究院

长按扫描维码

关注我们回复“

TTFNet ” 获取论文

EDC.CV

文章推荐 最高最快最小目标检测模型 | 可收缩且高效的目标检测(附源码下载) 实践 | 目前最快精度最高检测框架(EfficientDet) 最新的目标检测的深度架构 | 参数少一半、速度快3倍+(文末福利) 提高训练效率的实时目标检测(附源码)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK