7

如何提高3D点云目标检测的难例精度?

 3 years ago
source link: https://mp.weixin.qq.com/s/mzn5rivgFqUTcAYG9abwLA
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

如何提高3D点云目标检测的难例精度?

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

640?wx_fmt=jpeg

文章导读

本文是一篇将注意力机制应用在点云目标检测中的文章《TANet: Robust 3D Object Detection from Point Clouds with Triple Attention》,通过三元注意力机制强化目标信息,并用二级回归的方法提高定位精确度。

目录

前沿

3D点云目标检测通常采用三种策略:1. 基于原始点云的方法,设计网络提取特征,然后用两阶段检测网络估计结果;2. 基于体素的方法,将点云转换成规则的体素网格,然后采用3D卷积做目标检测;3. 基于鸟瞰图的方法,将3D点云编码成2D图像的方式,用图像目标检测的思路做目标检测。但是在复杂场景下的3D点云目标检测效果仍然不佳:1. 难以检测的对象(如行人)的检测准确率不够好;2. 添加额外的噪声点后,现有方法的性能迅速下降;主要产生的原因如下:1. 行人等小目标的体积小于车辆,激光雷达扫描到目标上的有效点较少。2. 行人所处的环境有大量可变背景物体(如树、灌木丛、电线杆等),在前景有效点较少的情况下,背景的复杂很大程度影响目标检测效果。

核心思想

针对以上的分析,本文设计了两个新颖的模块来提高网络的鲁棒性:1. Triple Attention。结合通道注意力、点注意力和体素注意力来增强目标的关键信息,并抑制不稳定的点。其中通道注意力用于判断每个体素中哪些通道更加重要;点注意力用于判断一个体素中哪些点更加重要;体素注意力用于判断在所有体素网格中哪些网格更加重要。2. Coarse-to-Fine Regression。采用两阶段回归的方法,将粗略回归的输出bbox作为精确回归的anchor,模块在不过度消耗计算成本的情况下提升定位准确率。

框架结构

本文首先将点云均匀分割成体素网格,然后用堆叠三元注意力模块分别处理每个体素,获得更具判别性的表达。之后用最大池化方法聚集每个体素内的点,从而为每个体素提取紧凑的特征表示。最后使用二次回归模块生成最终的 3D 边界框。如下图所示:
640?wx_fmt=png

实现细节

1. Triple Attention三元注意力机制分别由点注意力,通道注意力,和体素注意力组成。如下图所示:
640?wx_fmt=png
V是输入体素网格,首先使用Point-wise和Channel-wise得到融合的注意力特征图M,根据它得到注意力作用后的体素特征F1,体素注意力机制作用在F1上,得到最终体素特征F2。2. Coarse-to-Fine Regression粗糙到精细的回归是一种二级回归的方式,利用粗糙回归模块的输出外接框作为细化回归模块的锚点来执行 3D 边界框估计。如下图所示:
640?wx_fmt=png
Fine Regression输入是Coarse Regression的中间变量。可以说Coarse Regression部分网络指导Fine Regression部分网络。

要点分析

1. 借鉴NLP和图像领域较火的注意力机制,采用此类万金油模块提取被关注目标的特征信息,设计了针对点云特性的Triple Attention模块,该模块联合考虑通道注意力、点注意力和体素注意力,并执行堆叠操作从而获得多级特征注意力,进而得到对象的判别表示;2. 考虑到在在噪声环境下,仅应用单个回归器模块做 3D 边界框定位的效果不佳。提出新型 coarse-to-fine regression 机制,基于粗糙回归结果,利用新型 Pyramid Sampling Aggregation融合方法得到跨层特征图,并细化基于融合后的跨层特征图实现,从而得到更精细的估计结果。3. 该方法在难度较高的噪声环境中取得了不错的实验结果,在 KITTI 基准数据集上的量化比较结果表明,TANet 方法获得了当前最优性能,且其推断速度很快。
640?wx_fmt=jpeg
上图是本文在难例检测上与PointPillars的对比效果图。针对小目标的检测常规的网络会有较多的漏检和误检问题。

思考展望

该文主要解决了前面提到的两个问题:提高了难例检测的准确率;增强检测在噪声环境下的鲁棒性。虽然实验结果的提升并没有太大的飞跃,但是这种注意力机制模块属于即插即用型,完全可以集成到其他更先进的网络结构中。二级回归的思想有点类似于Faster RCNN系列相对于YOLO系列的差别,在图像的两阶段检测中就是在第一阶段预测出前后背景,第二阶段针对某区域的前景在做位置的回归。本文仅做学术分享,如有侵权,请联系删文。下载1在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

640?wx_fmt=png▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640?wx_fmt=jpeg 圈里有高质量教程资料、可答疑解惑、助你高效解决问题觉得有用,麻烦给个赞和在看~640?wx_fmt=gif


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK