CVPR 2021 | pixelNeRF：一种基于NeRF的多视图三维重建网络 - JOYK Joy of Geek, Geek News, Link all geek

CVPR 2021 | pixelNeRF：一种基于NeRF的多视图三维重建网络

Longway 3D视觉工坊 5 days ago

计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

121篇原创内容

Official Account

项目、论文地址：在公众号「3D视觉工坊」，后台回复「pixelNeRF」，即可直接下载。

概述

作者提出了pixelNeRF，一个只需要输入单张或多张图像，就能得到连续场景表示的学习框架。由于现存的构建神经辐射场【1】的方法涉及到独立优化每个场景的表示，这需要许多校准的视图和大量的计算时间，因此作者引入了一种新的网络架构。实验结果表明，在所有情况下，pixelNeRF在新视图合成和单图像三维重建方面都优于当前最先进的工作。

简介

该项目主要研究的问题是如何从一个稀疏的输入视图集中合成这个场景的新视图，在可微神经渲染出现之前，这个长期存在的问题一直没有得到进展。同时，最近的神经渲染场NeRF通过编码体积密度和颜色，在特定场景的新视图合成方面表现出很好的效果。虽然NeRF可以渲染非常逼真的新视图，但它通常是不切实际的，因为它需要大量的位姿图像和冗长的场景优化。在这篇文章中，作者对上述方法进行了改进，与NeRF网络不使用任何图像特征不同的是，pixelNeRF将与每个像素对齐的空间图像特征作为输入。这种图像调节允许框架在一组多视图图像上进行训练，学习场景先验，然后从一个或几个输入图像中合成视图，如下图所示。

PixelNeRF具有很多特点：首先，Pixel可以在多视图图像的数据集上面进行训练，而不需要任何额外的监督；其次，PixelNeRF预测输入图像的摄像机坐标系中的NeRF表示，而不是标准坐标系，这是泛化看不见的场景和物体类别的必要条件，因为在有多个物体的场景中，不存在明确的规范坐标系；第三，它是完全卷积的，这允许它保持图像和输出3D表示之间的空间对齐；最后，PixelNeRF可以在测试时合并任意数量的输入视图，且不需要任何优化。

背景介绍：NeRF

NeRF【1】将场景编码为颜色和密度的连续体积辐射场f。特别地，对于一个3D点x和观察方向单位向量d，f返回微分密度σ和RGB颜色c：f(x, d) = (σ, c)。体积辐射场可以通过下面的函数渲染成2D图像： 640?wx_fmt=png

其中T(t)处理遮挡。对于具有姿态P的目标视图，相机光线可以参数化为r(t)=o+td，o为光线原点(相机中心)。沿着相机光线在预定义的深度边界[tn，tf]之间计算积分。在实践中，这种积分是通过沿每个像素射线采样点的数值求积来近似的。然后，将摄影机光线r的渲染像素值与对应的真实像素值C(r)进行比较，最后的loss定义如下： 640?wx_fmt=png

其中R(P)是具有目标姿态的所有相机光线的集合。虽然NeRF实现了最新的视图合成，但它是一种基于优化的方法，每个场景必须单独优化，场景之间没有知识共享。这种方法不仅耗时，而且在单个或极稀疏视图的限制下，无法利用任何先验知识来加速重建或完成形状。

基于图像的NeRF

为了克服上面提到的关于NeRF的问题，作者提出了一种基于空间图像特征的NeRF结构。该模型由两个部分组成：一个完全卷积的图像编码器E(将输入图像编码为像素对齐的特征网格)和一个NeRF网络f(给定一个空间位置及其对应的编码特征，输出颜色和密度)。单视图pixelNeRF：首先固定坐标系为输入图像的视图空间，并在这个坐标系中指定位置和摄像机光线。给定场景的输入图像I，首先提取出它的特征量W=E(I)。然后，对于相机光线上的一个点x，通过使用已知的内参，将x投影到图像坐标π(x)上，然后在像素特征之间进行双线性插值来提取相应的图像特征向量W(π(x))。最后把图像特征连同位置和视图方向(都在输入视图坐标系统中)传递到NeRF网络： 640?wx_fmt=png

其中γ()是x上的位置编码。

合并多个视图：多个视图提供了有关场景的附加信息，并解决了单视图固有的三维几何歧义。作者扩展了该模型，不同于现有的在测试时只使用单个输入视图的方法，它允许在测试时有任意数量的视图。在有多个输入视图的情况下，只假设相对的相机姿态是已知的，为了便于解释，可以为场景任意固定一个世界坐标系。把输入图像记为I，其相关联的摄像机记为P=[R t]。对于新的目标摄影机光线，将视图方向为d的点x转换到每个输入视图i的坐标系，转换如下： 640?wx_fmt=png

为了获得输出的密度和颜色，作者独立地处理每个视图坐标帧中的坐标和相应的特征，并在NeRF网络中聚合视图。将NeRF网络的初始层表示为f1，它分别处理每个输入视图空间中的输入，并将最终层表示为f2，它处理聚合视图。和单视图类似，作者将每个输入图像编码成特征体积W(i)=E(I(i))。对于点x(i)，在投影图像坐标π(x(i))处从特征体W(i)中提取相应的图像特征，然后将这些输入传递到f1，以获得中间向量： 640?wx_fmt=png

最后用平均池化算子ψ将中间向量V(i)聚合并传递到最后一层f2，得到预测的密度和颜色： 640?wx_fmt=png

效果和对比

特定类别的单视图重建

特定类别的双视图重建

特定类别的单视图和双视图重建结果对比参考文献：【1】Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik,Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In Eur. Conf. Comput. Vis., 2020【2】Daeyun Shin, Charless Fowlkes, and Derek Hoiem. Pixels, voxels, and views: A study of shape representations for single view 3d object shape prediction. In IEEE Conf. Comput.Vis. Pattern Recog., 2018.本文仅做学术分享，如有侵权，请联系删文。下载1在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

CVPR 2021 | pixelNeRF：一种基于NeRF的多视图三维重建网络