12

多视图立体匹配论文分享CasMVSNet

 3 years ago
source link: https://mp.weixin.qq.com/s/XrT2WQkzRU4oIIDVvXZFdg
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

多视图立体匹配论文分享CasMVSNet

Todd-Qi 3D视觉工坊 12/3

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

Image

论文题目:Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

代码地址:在公众号「3D视觉工坊」,后台回复「CasMVSNet」,即可直接下载。

0、引言CasMVSNet[1]是CVPR2020的工作,在开始介绍这篇文章之前,我们首先回顾一下之前的工作。基于学习的MVS算法可以分为四个模块:·特征提取模块·特征匹配和代价聚合模块·深度图回归模块·深度图细化模块[可选项]
Image
图 1 MVSNet网络架构图以ECCV2018的MVSNet[2]为例,这里简单介绍每个模块的实现方式,具体细节可参考论文或之前的推文。·特征提取模块:8层的2D卷积操作,除最后一层外,卷积操作后跟随BatchNorm层和ReLU;·特征匹配和代价聚合模块:※特征匹配:通过单应变换将源图像的特征图变换到参考视图下,并基于方差指标将多视图的特征体聚合为一个代价体。※代价聚合:4个尺度的3DCNN网络·深度图回归:soft-argmin操作。1、文章动机基于学习的MVS算法因为受到显存的限制,输出的深度图的空间分辨率只有输入图像的1/16大小(长宽均为输入图像的1/4大小)。以MVSNet为例,对于1600×1184大小的输入图像,需要构建h×w×D×F=400×296×256×8大小的代价体,16GB的显卡才可以胜任。之前的方法限制了高分辨率MVS算法的发展。那么问题来了,为什么要得到高分辨率的深度图呢?我们知道,MVS算法的评测是对最后生成的点云进行评测。同等情况下,深度图分辨率越高,得到的空间3D点数目越多,那么点云的完整性会更高,重建质量则更佳。
640?wx_fmt=png
图 2 代价体,其中H和W为空间分辨率,D为平面假设数,I为深度间隔关于代价体:代价体(Cost Volume)是三维的,存储时为4D的tensor。我们可以理解为:代价体每一个位置存储的是一个F维的向量而不是标量。如图2所示,空间分辨率H×W越高,平面假设数D越多,深度间隔I越小,那么得到的深度图质量越高;同时显存占用越大、耗时越长。那么,有没有一种可以权衡精度和效率的方法呢?2. 方法
640?wx_fmt=png
图 3 CasMVSNet网络架构图整体思路:CasMVSNet使用级联的代价体来实现coarse-to-fine的深度估计。具体地,首先通过一个较小的代价体估计低分辨率的深度图,然后我们可以根据上一级输出的深度图,缩减当前尺度的深度假设范围。CasMVSNet使用3级的代价体来实现深度图估计,包括两级的中间结果和一个最终的深度输出。· 特征提取模块:CasMVSNet需要在每个尺度上都进行特征提取和代价体构建,所以需要输入图像的多尺度特征。文章使用了三个尺度的FPN(Feature Pyramid Network)网络。三个尺度的特征图空间分辨率分别为输入图像的{1/16, 1/4, 1}大小。和之前的方法一样,不同输入图像之间共享权重。·特征匹配和代价聚合:同MVSNet·深度图回归:同MVSNet
640?wx_fmt=png
图 4 深度范围的确定·深度范围的确定:

640?wx_fmt=png

640?wx_fmt=png
3、实验结果3.1 DTU数据集CasMVSNet在DTU[3]数据集的实验结果如表1所示,和Baseline方法MVSNet相比,重建质量有35.6% 的提升,显存占用降低了50.6%,运行时间有59.3%的提升。点云重建质量也超过了2019年的R-MVSNet、P-MVSNet和Point-MVSNet等方法。图5中(a)~(d)是不同方法的DTU scan9的可视化结果,我们可以看到CasMVSNet重建的点云更加稠密,点云质量更佳,这也说明了高分辨深度估计的优势所在。图5中(e)为不同方法的GPU占用和精度对比图;图5中(f)为不同方法的运行时间和精度对比图。表 1 DTU数据集实验结果
640?wx_fmt=png
640?wx_fmt=jpeg
图 5 与SOTA方法的实验效果对比图3.2 Tanks and Temples 数据集CasMVSNet在Tanks and Temple[4]数据集的实验结果如图2所示,重建点云的可视化结果如图6所示。表 2 Tanks and Temples数据集实验结果
640?wx_fmt=png
640?wx_fmt=jpeg
图 6 Tanks and Temples数据集的重建点云参考文献1.Gu X, Fan Z, Zhu S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2495-2504.2.Yao Y, Luo Z, Li S, et al. Mvsnet: Depth inference for unstructured multi-view stereo[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 767-783.3.Aanæs H, Jensen R R, Vogiatzis G, et al. Large-scale data for multiple-view stereopsis[J]. International Journal of Computer Vision, 2016, 120(2): 153-168.4.Knapitsch A, Park J, Zhou Q Y, et al. Tanks and temples: Benchmarking large-scale scene reconstruction[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1-13.本文仅做学术分享,如有侵权,请联系删文。下载1在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

640?wx_fmt=png▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640?wx_fmt=jpeg 圈里有高质量教程资料、可答疑解惑、助你高效解决问题觉得有用,麻烦给个赞和在看~640?wx_fmt=gif


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK