15

RGPNET: 复杂环境下实时通用语义分割网络

 3 years ago
source link: https://mp.weixin.qq.com/s/ltHnduyp0fpzwq1MOh1thQ
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

原文链接:https://arxiv.org/abs/1912.01394

一、主要思想

本文提出了一种新的实时通用语义分割体系结构RGPNet,在复杂环境下取得了显著的性能提升。RGPNet由一个轻量级的非对称编码器-解码器和一个适配器组成。适配器有助于从编码器和解码器之间的多层分布式表示中保留和细化抽象概念。它也有助于从较深层到较浅层的梯度流动。大量实验表明,与目前最先进的语义分割网络相比,RGPNet具有更好的性能。

此外还证明了在保持性能的同时,使用改进的标签松弛技术和逐步调整大小可以减少60%的训练时间。论文还对应用在资源受限的嵌入式设备上的RGPNet进行了优化,使推理速度提高了400%,性能损失可以忽略不计。RGPNet在多个数据集之间获得了更好的速度和精度权衡。

二、创新点

1、提出的RGPNet作为一种通用的实时语义分割体系结构,它可以在单分支网络中获得高分辨率的深层特征,从而提高准确性和降低延迟,在复杂的环境中具有竞争力。

2、引入一个适配器模块来捕获多个抽象级别,以帮助细分的边界细化,适配器还通过添加较短的路径来辅助渐变梯度流。

3、对于green AI,在训练期间采用渐进式调整大小技术,从而使训练时间和环境影响减少60%,并且采用一种改进的标签松弛来消除低分辨率标签映射中的混叠效应。

4、使用TensorRT(一个高性能深度学习推理平台)优化RGPNet,以便部署在边缘计算设备上,从而使推理速度提高400%。

5、RGPNet在Cityscpes、CamVid和Mapillary数据集上分别实现了Resnet-101作为backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作为backbone下74.1%、66.9%和41.7% mIoU。对于1024×2048分辨率的图像,RGPNet在CityScapes数据集上单NVIDIA GTX2080Ti GPU下达到37.4 FPS。

三、网络结构

RGPNet的整体结构如下所示,每个箭头都有对应的操作模式:

  • 中间一列操作为编码器

  • 最右边操作为解码器

  • “+”操作为适配器(Adaptor)

640?wx_fmt=png

其中“+”详细操作如下所示:

1、T(:)是一个转换函数,它用来减少编码器模块输出通道数量并将其传输到adaptor。

2、D(:)和U(:)是下采样和上采样功能。

640?wx_fmt=png

Adaptor有许多优点:

1、Adaptor聚合来自不同上下文和空间级别的特征。

2、通过引入较短的路径,有助于梯度从较深的层流向较浅的层。

3、Adaptor允许使用轻量解码器的不对称设计,这将减少卷积层,进一步增强梯度流。因此,Adaptor使网络适合于实时应用,因为它在保留空间信息的同时提供了丰富的语义信息。

针对带标签松弛的渐进式调整:

论文采取了最大化像素周围区域相似度分布,而不是单个像素级别的标签最大可能化,针对边界类别,提出了边界损失函数。

四、实验结果

多种网络在Mapillary Vistas数据集上的测试结果:

640?wx_fmt=png
640?wx_fmt=png

几种网络在Mapillary Vistas数据集上的性能对比:

640?wx_fmt=png

在CamVid数据集上的性能对比:

640?wx_fmt=png

RGPNet使用TensorRT在GTX2080Ti和Xavier上速度对比:

640?wx_fmt=png

综合速度和准确率以及实际部署下的性能,RGPNet都非常具有竞争力~

上述内容,如有侵犯版权,请联系作者,会自行删文。

重磅!3DCVer-学术交流群已成立

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

640?wx_fmt=jpeg

▲长按加群或投稿

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640?wx_fmt=jpeg 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK