6

多视图立体匹配论文分享 | Fast-MVSNet (CVPR2020)

 3 years ago
source link: https://mp.weixin.qq.com/s/350Kcvb1NgU8TmkYSyrrgg
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

多视图立体匹配论文分享 | Fast-MVSNet (CVPR2020)

Todd-Qi 3D视觉工坊 2/22
计算机视觉工坊
计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
106篇原创内容
Official Account
论文题目:Fast-MVSNet: Sparse-to-Dense Multi-View Stereo with Learned Propagation and Gauss-Newton Refinement
代码地址:在公众号「3D视觉工坊」,后台回复「Fast-MVSNet」,即可直接下载。摘要:以往基于深度学习的多视图立体匹配 (MVS) 方法几乎都是为了提高重建质量。除了重建质量,效率也是现实场景中重建的一个重要特征。为此,本文提出Fast-MVSNet,一种新的由稀疏到稠密、由粗糙到精细的框架,用于快速和准确的多视图深度估计。具体而言,在Fast-MVSNet中,我们首先构造一个稀疏的代价体来学习一个稀疏但高分辨率的深度图。然后我们利用小型卷积神经网络对局部区域内像素的深度依赖进行编码,以稠密化稀疏但高分辨率的深度图。最后提出简单且有效的高斯-牛顿层来进一步优化深度图。一方面,高分辨率的深度图、数据驱动的自适应传播方法和高斯-牛顿层保证了算法的有效性。另一方面,Fast-MVSNet中所有模块都是轻量级的,因此保证了算法的高效性。此外由于稀疏深度图的表示,我们方法也是memory-friendly的。实验结果表明Fast-MVSNet比Point-MVSNet快5倍,比R-MVSNet快14倍,同时在Tanks and Temples的DTU上取得了可比较甚至更好的结果。
640?wx_fmt=png
图 1. Fast-MVSNet的网络架构。第一阶段,首先基于2D CNN提取的特征构建稀疏代价体,并使用3D CNN预测稀疏的低分辨率深度图。第二阶段:设计了一个简单而有效的网络将稀疏深度图传播为稠密深度图。第三阶段:使用可微分的高斯-牛顿层来进一步优化深度图。一、方法
640?wx_fmt=png
为此,我们提出了Fast-MVSNet,一个高效的MVS框架,利用由稀疏到稠密、由粗糙到精细的策略来进行深度估计。具体地,首先估计一个稀疏的高分辨率深度图,这样现有的MVS方法可以以更低的成本应用;然后设计了一个简单而有效的传播模块来稠密化稀疏深度图;最后,提出一种可微的高斯-牛顿层来进一步优化深度图,实现亚像素精度的深度估计。方法的整体流程如图1所示。
640?wx_fmt=png
图 2. 深度图的初始化。(a) MVSNet和R-MVSNet方法使用的高分辨率深度图。(b) Point-MVSNet使用的低分辨率深度图。(c) 和之前的方法不同,本方法使用的是稀疏的高分辨率深度图。1.1 稀疏的高分辨率深度图预测算法的第一步是为参考图像I0估计稀疏的高分辨率深度图。图2展示了稀疏深度图表示和其他类型深度图之间的差异。本方法以较低的内存消耗和代价计算来预测稀疏的高分辨率深度图,而其他方法要么估计高分辨率的深度图,但是内存成本高;要么估计低分辨率的深度图,细节处会丢失。我们认为,稀疏的高分辨率表示比低分辨率表示更加合适,原因有以下两点:1)使用低分辨率深度图进行训练需要对ground-truth深度图进行下采样。如果使用最近邻方式,那么低分辨率的表示形式和我们稀疏的高分辨率表示是相同的。然而在这种情况下,得到的深度图与提取的低分辨率特征图没有很好地对齐。如果下采样使用双线性插值,那么将会在深度值不连续区域出现伪影。2)细节在低分辨率的深度图中丢失了。从低分辨率深度图中恢复出具有良好细节的高分辨率深度图需要复杂的上采样技术。为了预测稀疏的高分辨率深度图,使用MVSNet作为基础网络。具体地,首先使用8层的2D CNN网络来提取图像特征,然后基于参考图像的视锥体来构建稀疏的代价体。最后使用3D CNN网络对代价体进行正则化,并通过soft-argmin操作进行深度图回归。
640?wx_fmt=png
另外稀疏的代价体表示使得3D CNN在空间域的表现类似于dilation为2的空洞卷积。因此在正则化中,有融合更大空间信息的能力。
640?wx_fmt=png
图 3 传播模块的图示1.2深度图传播
640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png
图 4. 可微分高斯-牛顿层的图示。1.3 高斯-牛顿优化在上一步中,我们关注稠密深度图的高效预测,然后预测得到的深度图精度是不够的。因此我们提出使用高斯-牛顿算法对深度图进行优化。尽管深度图优化的方法有很多,但出于对效率的考量选择了高斯-牛顿算法。
640?wx_fmt=png
640?wx_fmt=png
1.4 损失函数按照之前的方法,我们使用估计深度图和ground-truth深度图之间的平均绝对误差 (mean absolute error, MAE) 作为训练损失函数。初始深度图和细化后的深度图都被考虑在内:
640?wx_fmt=png
640?wx_fmt=png
图 5. DTU数据集scan 9的重建结果。如图中蓝色圆圈区域所示,我们的重建方法在精细结构周围包含了更少的噪声,证明了我们方法的有效性。二、实验结果2.1 DTU数据集本文方法与传统方法和基于学习的方法进行了比较。定量评测结果如表1所示。其中Gipuma的准确性 (Acc.) 最好,本文方法在完整性 (Comp.) 和整体质量 (Overall) 方面表现最佳。图5展示了本文方法与Point-MVSNet重建结果的可视化对比。本文方法在精细结构处的重建更加干净,验证了本方法的有效性。
640?wx_fmt=png
表 1. DTU数据集上重建质量的评测结果更近一步地,如表2所示,作者通过与state-of-the-art方法比较三维点云重建质量、深度图分辨率、GPU显存占用和运行时间方面的性能指标来证明本文的有效性和高效性。
640?wx_fmt=png
表2. DTU数据集上关于重建质量、深度图分辨率、GPU显存占用和运行时间的对比结果2.2 Tanks and Temples数据集为了评测本文方法的泛化性能,作者在Tanks and Temples数据集中进行了测试。直接使用在DTU数据集上训练的模型,没有经过任何的fine-tuning。输入图像的分辨率为1920×1056。深度假设的平面数D = 96,实验使用MVSNet提供的相机参数。评测结果如表3所示,本文取得了与state-of-the-art方法接近较的结果,证明本方法具有较好的泛化性能。如图6所示,重建的点云是稠密且具有良好视觉效果的。
640?wx_fmt=png
表 3. Tanks and Temples数据集上的评测结果。本文方法获得了与state-of-the-art方法可比较的实验结果。
640?wx_fmt=png
图 6. Tanks and Temples数据集中intermediate set的重建结果。三、结论本文提出一个高效的MVS框架Fast-MVSNet,本框架利用了有稀疏到稠密、由粗糙到精细的策略。首先以较低的成本估计稀疏的高分辨率深度图。然后通过一个简单的传播模块将稀疏深度图传播为稠密深度图。最后利用可微的高斯-牛顿层来进一步优化深度图,来提高深度估计的准确性。在两个具有挑战性的数据集上 (DTU, Tanks and Temples) 的实验结果验证了本方法的有效性和高效性。备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区本文仅做学术分享,如有侵权,请联系删文。下载1在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

640?wx_fmt=png▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640?wx_fmt=jpeg 圈里有高质量教程资料、可答疑解惑、助你高效解决问题觉得有用,麻烦给个赞和在看~640?wx_fmt=gif


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK