16

DSGN:基于深度立体几何网络的3D目标检测(香港大学提出)

 3 years ago
source link: https://mp.weixin.qq.com/s/-NaCT6tpcdz1M5QV9h0vhg
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

主要思想与创新点

大多数最先进的三维目标检测器严重依赖激光雷达传感器。由于在三维场景中的预测不准确,基于图像的方法与基于激光雷达的方法在性能上仍有很大差距。本文提出了深度立体几何网络(DSGN)的方法,通过在可微的体积表示:三维几何体上检测三维物体,有效地编码了三维规则空间的三维几何结构,显著地减小了这一差距。通过这种表示,可以同时学习深度信息和语义线索。本文首次提供了一个简单有效的基于单级立体的3D检测流水线,它以端到端的学习方式联合估计深度和检测3D对象。该方法优于以前的基于立体的3D检测器(在AP方面大约高出10个),甚至达到了KITTI 3D目标检测排行榜上的几个基于LiDAR方法相当的性能,代码将在后期公开。本文主要有以下创新点:1. 为了弥补二维图像与三维空间之间的差距,在平面扫描体中建立立体对应约束,并将其转化为三维几何体,从而可以对三维几何体和语义线索进行编码,用于三维规则空间的预测;2. 设计了一个单一的统一网络,用于提取用于立体匹配的像素级特征和用于目标识别的高级特征。本文的pipelines可以联合估计场景深度和检测三维世界中的3D Object,从而实现实际应用;3. 提出的网络性能优于官方KITTI排行榜上所有其它基于立体的3D物体探测器(AP高出10个)

网络结构

有效三维表示的关键在于对三维空间的精确三维几何信息进行编码,立体相机为计算深度提供了明确的像素对应约束。为了设计一个统一的网络来利用这一约束,本文探索了能够同时提取立体对应的像素级特征和语义线索的高级特征的深层结构。假设像素对应约束沿着投影光线施加到每个像素,其中深度被认为是确定的,本文从双目图像对中创建一个中间平面扫描体来学习摄像机视锥中的立体对应约束,然后将其转换为三维空间中的三维体。在这个从平面扫描体中提取三维几何信息的三维体中,能够很好地学习真实世界对象的三维特征。
640?wx_fmt=png
如上图所示,DSGN网络的输入为左右相机的2D图像,主要包括2D Feature Extraction模块、Constructing PSV and 3DGV模块、3D Object Detection模块以及Depth Estimation模块。针对2D Feature Extraction模块:主要参考PSMNet结构,并进行了少量的修改。针对Constructing PSV and 3DGV模块:为了学习三维规则空间中的三维卷积特征,首先通过将平面扫描体扭曲到三维规则空间来创建三维几何体(3DGV)。PSV是通过将图像以等间距的深度(蓝色虚线)投影到左侧的摄像机视锥中来构建的,该视锥在三维世界空间(左侧)和图像深度空间(中间)中显示。汽车在中间显示为扭曲的,并通过3D Hourglass进行卷积处理。后期通过摄像机内参矩阵K映射,PSV被扭曲为3DGV,从而恢复车辆正常姿态,并和3DGV特征进行特征融合。
640?wx_fmt=png
针对3D Object Detection模块:参考了FCOS思想,并提出了一种基于距离的目标分配方法。针对Depth Estimation模块:预测出单通道的深度图像,并对深度进行离散化均匀间隔采样。损失函数定义:本文中的损失函数主要针对深度值误差和3D box预测的类别、中心坐标和尺寸的误差。

实验结果

我们的方法在流行的KITTI 3D目标检测数据集上进行了评估,该数据集提供7481个立体图像对和点云用于训练以及7518幅用于测试,真值深度图由点云生成。训练数据包含汽车、行人和骑自行车者。

下表详细列出了多模型性能对比结果:

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png
原文链接:https://arxiv.org/pdf/2001.03398.pdf

上述内容,如有侵犯版权,请联系作者,会自行删文。

重磅!3DCVer-知识星球和学术交流群已成立

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导,550+的星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640?wx_fmt=jpeg 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

640?wx_fmt=jpeg▲长按加群或投稿

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK