多视图立体匹配论文分享：BlendedMVS

Todd-Qi 3D视觉工坊 1/20

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

640?wx_fmt=jpeg

论文题目：BlendedMVS: A Large-scale Dataset for Generalized Multi-view Stereo Networks

数据集和预训练模型地址：在公众号「3D视觉工坊」，后台回复「BlendedMVS」，即可直接下载。

摘要：尽管深度学习在多视图立体匹配领域取得了很大的进展，但是有限的训练数据使得训练模型很难泛化到看不见的场景。与其他的计算机视觉任务相比，制作大规模的MVS数据集是相对困难的，因为它需要昂贵的主动激光扫描仪和劳动密集的处理去获得ground-truth的三维结构。本文提出一个新的大规模数据集BlendedMVS，为基于学习的MVS算法提供了足够的训练样本。为了创建数据集，首先利用三维重建算法从给定的场景图像中恢复出带纹理的三维网格模型。然后将重建得到的三维网格模型渲染得到彩色图像和深度图。为了在模型训练中引入环境的光照信息，渲染得到的彩色图像和原始输入图像进行混合，混合得到的彩色图像作为网络模型的训练输入。BlendedMVS数据集中包含超过17k的高分辨率图像，涵盖了各种场景，包括城市、建筑、雕塑和小物体。实验表明：和其他数据集相比，使用BlendedMVS训练的网络模型具有更好的泛化能力。

图 1 渲染数据的生成流程，首先从输入图像中生成带纹理的三维模型，然后将三维模型渲染到不同的视点下得到渲染图像和深度图。一、数据集的制作：数据集制作的流程如图1所示，首先使用三维重建算法从输入的图像中生成带纹理的三维网格模型。接下来，将三维网格模型渲染到每个相机视点下以获得渲染的图像和对应的深度图。最终用于训练的输入图像是渲染图像和输入图像进行混合得到混合图像。1.1. 生成带纹理的三维网格模型构建合成MVS数据集的第一步是生成高质量的带纹理的三维网格模型。给定输入图像，首先利用Altizure平台进行三维网格重建。该软件会执行完整的三维重建算法，三维重建的输出结果为带纹理的三维网格模型和相机位姿。如图1所示，根据三维网格模型和输入图像的相机位姿，可以把三维模型渲染到各个视点下得到渲染的图像和渲染的深度图。渲染得到的深度图将作为模型训练时深度图的ground-truth。

图 2 混合图像生成的流程，高通滤波器用于从渲染图像中提取视觉线索，而低通滤波器从输入图像中提取环境光照信息。1. 2. 生成混合图像直观上讲，渲染得到的图像可以直接作为网络训练。然而，一个潜在的问题是渲染得到的图像不包含依赖视图的光照。事实上，一个理想的MVS网络训练样本应该满足以下两个条件：① 图像和深度图应该一致对齐，训练样本应该提供从输入图像到ground-truth深度图的可靠映射。② 图像应该反射视点相关的光照。逼真的环境光照可以增强模型对真实场景的泛化能力。

二、场景BlendedMVS数据集包含113个场景，涵盖了各种不同的场景，包括建筑、街景、雕塑和小型物体。每个场景包含20到1000张不等的输入图像，整个数据集共有17818张图像。与DTU数据集相比，DTU数据集场景是通过一个固定的机械臂获取的，BlendedMVS数据集中的场景包含各种不同的相机轨迹。非结构化的相机轨迹可以更好地建模不同的图像捕捉风格，使得网络对真实世界的重建具有更好的泛化性能。

图 3 BlendedMVS数据集中带有相机轨迹的三维纹理模型，图中蓝色框表示三维空间中相机的位置。三、实验结果为了验证提出的数据集的有效性，作者在BlendedMVS数据集上训练和评测了MVSNet、R-MVSNet和Point-MVSNet三种网络模型。3.1. 深度图验证为了验证BlendedMVS数据集的有效性，作者比较了在1）DTU训练集、2）ETH3D低分辨率训练集、3）MegaDepth数据集和4）BlendedMVS训练集上训练模型的效果。评测在对应数据集的验证集上进行的。实验中考虑的三个指标：1）终点误差(end point error, EPE)，即预测的深度图与深度图ground-truth的平均误差；2）大于1像素误差，即误差大于1个深度像素的比例；3）大于3像素误差。定量结果如图4所示。

图 4 模型训练过程中验证集上的深度图误差。使用BlendedMVS数据集（红线）训练的模型在DTU和ETH3D验证集上都表现出良好的泛化性能。3.2. 点云评测除了深度图评测之外，作者还比较了在DTU、ETH3D、MegaDepth和BlendedMVS数据集训练的模型在Tanks and Temples训练集上的点云重建效果。点云评测包括三个评价指标，即精度(accuracy)、召回率(completeness)和整体来衡量重建质量。如表5所示，在DTU和MegaDepth数据集上训练的模型取得了接近的分数，而在BlendedMVS数据集上训练的模型在所有场景上都优于其他三个数据集上训练的模型。将训练数据从DTU改为BlendedMVS，从47.5%提高到53.2%.深度图的可视化比较如图6所示。

图 5 Tanks and Temples数据上的点云评测，在BlendedMVS数据上训练的模型在所有场景上性能优于在其他数据集上训练的模型。

图 6 深度图重建的可视化比较，与其他三个数据集相比，使用BlendedMVS数据集训练的模型预测的深度图结果更清晰。结论：本文提出用于MVS网络模型训练的BlendedMVS数据集。数据集提供了超过17k的高质量训练样本，涵盖了各种场景。为了构建数据集，首先从输入图像中重建带纹理的三维网格模型，然后将三维网格模型渲染得到彩色图像和深度图。将渲染的彩色图像和输入图像进行混合作为模型训练的输入。使用了BlendedMVS数据集和其他MVS数据集对三种网络模型进行训练。定量和定性结果表明，在BlendedMVS数据集上训练的模型具有更好的泛化能力。备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区本文仅做学术分享，如有侵权，请联系删文。下载1在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

多视图立体匹配论文分享：BlendedMVS