14

Stereo R-CNN 3D 目标检测

 4 years ago
source link: https://flashgene.com/archives/95699.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

摘要

之前在3D检测方面的文章层出不穷,也是各个公司无人驾驶或者机器人学部门关注的重点,包含了点云,点云图像融合,以及单目3D检测,但是在双目视觉方面的贡献还是比较少,自从3DOP之后。总体来说,图像的检测距离,图像的density以及context信息,在3D检测中是不可或缺的一部分,因此作者在这篇文章中挖掘了双目视觉做3D检测的的潜力。

今天给大家分享的文章又是一个新技术:这篇文章通过充分利用立体图像中的稀疏、密集、语义和几何信息,提出了一种用于自动驾驶的称为立体声R-CNN的三维物体检测方法。扩展了 Faster R-CNN 用于立体声输入,以同时检测和关联左右图像中的对象。通过在立体区域提议网络(RPN)之后添加额外分支以预测稀疏关键点,视点和对象维度,其与2D左右框组合以计算粗略的3D对象边界框。然后,通过使用左右RoI的基于区域的光度对准来恢复精确的3D边界框。该方法不需要深度输入和3D位置,但是,效果优于所有现有的完全监督的基于图像的方法。在具有挑战性的KITTI数据集上的实验表明,该方法在3D检测和3D定位任务上的性能优于最先进的基于立体的方法约30%AP。

新网络框架

uqm2YrJ.jpg!web

与单帧检测器(如 Faster R-CNN )相比, Stereo R-CNN 可以同时检测并关联左右图像的2D边界框,并进行微小修改。使用权重共享 ResNet-101 和 FPN 作为骨干网络来提取左右图像的一致特征。,受益于新提出的训练目标设计,如下图,没有额外的数据关联计算。

3IFvMfr.jpg!web

整个网络结构分为以下的几个部分:

RPN部分,将左右目的图像通过stereo RPN产生相应的候选,其实就是stereo RPN是在FPN的基础上,将每个FPN的scale上的feature map的进行concat的结构;

Stereo Regression,在RPN之后,通过Roi Align的操作,得到each FPN scale下的left and right Roi features,然后concat相应的特征,经过全连接层得到目标类别, stereo bounding boxes dimension还有viewpoint angle(下图所示) 的值;

uyQb2yn.jpg!web

viewpoint:根据上图假定物体的朝向是 θ, 车中心和camera中心的方位角是β,那幺viewpoint的角度为 α =  θ+ β ,为了避免角度的歧义性,新技术回归的量还是[ sinα, cosα ]。

keypoint的检测。这里采用的是类似于 mask rcnn 的结构进行关键点的预测,定义了4个3D semantic keypoint,即车辆底部的3D corner point,同时将这4个点投影到图像,得到4个perspective keypoint,这4个点在3D bbox regression起到一定的作用,我们在下一部分再介绍。在keypoint检测任务中,利用Roi Align得到的14*14特征图,经过卷积和反卷积最后得到6 * 28 * 28的特征图,注意到只有keypoint的u坐标会提供2D Box以外的信息,因此,处于减少计算量的目的,新技术aggregate每一列的特征得到6 * 28的输出,其中前4个通道代表4个keypoint被投影到相应的u坐标的概率,后面两个通道代表是left or right boundary上的keypoint的概率。

3D Box Estimation

通过网络回归得到的2D box的dimension,viewpoint,还有keypoint,可以通过一定的方式得到3D box的位置,定义3D box的状态x = [x, y, z, θ]。

NbIJJnV.jpg!web

上图, 给出了一些稀疏的约束。包含了特征点的映射过程。这里也体现了keypoint的用处:

jaYzI3a.jpg!web

上述公式即为约束方程,因此可以通过高斯牛顿的方法直接求解。

Dense 3D Box Alignment

这里就回到shenshaojie老师比较熟悉的BA的过程了,由于part 3仅仅只是一个object level的深度,这里文章利用最小化左右视图的RGB的值,得到一个更加refine的过程。定义如下的误差函数:

zu2eAv6.jpg!web

其中△zi代表第i个像素的深度与相对应的3D box的深度差。整个对齐过程其实相对于深度的直接预测是更加鲁棒,因为这种预测方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的问题。

实验

Stereo Recall and Stereo Detection:

Stereo R-CNN旨在同时检测和关联左右图像的对象。除了评估左右图像上的2D AR和2D AP之外,还定义了立体声AR和立体声AP度量。

iiEJ7ji.jpg!web

Stereo AR和stereo AP度量共同评估2D检测和关联性能。如上表所示, stereo R-CNN 在单个图像上具有与 Faster R-CNN 相似的提议回忆和检测精度,同时在左右图像中产生高质量的数据关联而无需额外的计算。虽然stereo AR略低于RPN中的左AR,但在 R-CNN 之后观察到几乎相同的左,右和stereo AP,这表明左右图像上的一致检测性能以及几乎所有真正的正向盒子。左图有相应的正阳性右框。还测试了左右特征融合的两种策略:元素均值和通道级联。如上表所示,其通道串联显示出更好的性能,因为它保留了所有信息。

3D Detection and 3D Localization:

qeYFV3Z.jpg!web

如上表使用针对鸟瞰图(AP bv)和3D框(AP 3d)的平均精度来评估3D检测和3D定位性能。 注意: KITTI 3D检测基准测试很难用于基于图像的方法,随着物体距离的增加,3D性能会逐渐降低。

vemQ7b2.jpg!web

在上图中可以直观地观察到这种现象,尽管该方法实现了子像素视差估计(小于0.5像素),但是由于视差和深度之间的反比关系,随着物距增加,深度误差变得更大。对于具有明显差异的对象,基于严格的几何约束实现高精度的深度估计。这就解释了为什幺更高的IoU阈值,对象所属的更容易的制度,与其他方法相比,该方法获得了更多的改进。

Benefits of the Keypoint:

如下表所示,关键点的使用通过非平凡边缘改善了所有难度制度下的AP bv和AP 3D。由于关键点除了2D盒级测量之外还为3D盒角提供像素级约束,因此它可确保更准确的本地化性能:

vqmYnuI.jpg!web

Benefits of the Dense Alignment:

i6BJnmu.jpg!web

该实验显示了密集对齐带来的显着改进。如上表,评估粗3D盒(无对齐)的3D性能,其中深度信息是根据盒级视差和2D盒尺寸计算的。即使1像素视差或2D盒子错误也会导致远距离物体的大距离误差。结果,虽然粗糙的3D盒子在图像上具有预期的精确投影,但它对于3D定位来说不够准确。

Insight

最后谈谈文章看完后的一些insights,首先,整个文章将传统的detection的任务,结合了geometry constraint优化的方式,做到了3D位置的估计,想法其实在不少文章SFM-Learner之类的文章已经有体现过了,不过用在3D 检测上面还是比较新颖,避免了做双目匹配估计深度的过程。 也属于SLAM跟深度学习结合的一篇文章,感兴趣的朋友可以继续看看arxiv.org/abs/1802.0552等相关文章。

我个人意义上的不足:首先耗时过程0.28s的inference time,不过可能作者的重点也不在这个方面,特征的利用上可以更加有效率,在实现上; 其次,能不能采用deep 3dbox的方式预测dimension,然后添加入优化项呢?总体来说,是一篇不错的值得一读的文章!

END

论文地址: https://arxiv.org/pdf/1902.09738.pdf


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK