2

英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建

 1 year ago
source link: https://www.qbitai.com/2023/04/43367.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建

head.jpg明敏 2023-04-02 13:51:56 来源:量子位

方法接近于实时(10Hz)

Bowen 投稿自 凹非寺

量子位 | 公众号 QbitAI

普通手机“随手”拍的雕像,一下就变成了精细的三维重建图。

水杯来回动的动态场景下,细节清晰可见:

0a600f489494497bb3cd5b6dcbf9df1d~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=pSPfa3bfOhKXRGYdUjX9vCLmRcE%3D

静态场景效果也同样nice,狗狗突出的肋骨都被还原了出来:

897dc480c85d4141aeb2a700021357dd~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=yo%2BBs8tubdiDGQ42J8jlZHlodMk%3D

对比来看其他方法,效果是酱婶的……

47e14af7714d4ffeac1effe05e353f02~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=iaNjDHuda7%2F1llRIrul7aH4KPWY%3D

这就是英伟达最新提出的方法BundleSDF

这是一种可对未知物体的6D姿态追踪和三维重建的方法。

用于从单目RGBD视频序列中跟踪未知物体的6自由度运动,同时进行物体的隐式神经三维重建,方法接近于实时(10Hz)。

这种方法适用于任意刚性物体,即使视觉纹理大部分确实,仅需在第一帧中分割出物体,不需要任何额外的信息,并且不对智能体与物体的交互模式做任何假设。

目前,该方法已被CVPR 2023接收。

可处理大幅度姿态变化、有遮挡视频

该方法的关键是一个神经物体场,它与姿态图优化过程同时进行,以便将信息稳健地累积到一致的3D表示中,捕捉几何和外观。

方法自动维护了一组动态的姿态内存帧,以便这些线程之间进行通信。

它能处理具有大幅度姿态变化、部分和完全遮挡、无纹理表面和高光反射等具有挑战性的视频。

作者展示了HO3D、YCBInEOAT和BEHAVE数据集上的结果,证明了我们的方法显著优于现有方法。

用于iPhone 12 Pro Max的效果:

d8e0dd8e0f254fbd9ac17f8b67f4f282~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=wieHudBexsFu17GdoTDJMd6jeuY%3D

用于Intel RealSense的效果:

25b7d4b1f2b6491a9feb1f793d5ff4c6~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=xJiVhlNLSMu1figN8oyPu89Y5Mw%3D

该方法不仅适用于更具挑战性的动态场景,还适用于此前经常被考虑的静态场景(移动相机)。

因此实现了比专门设计用于静态场景的那些方法更好或相当的结果(即文章开头展示动图)。

e9cca9ce51d54646a5cb10bdf249752a~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=mbywCIS1BI5kryQyIiHGKuqmEpY%3D

与SOTA对比

HO3D数据集上三种最具竞争力方法的定性比较。

左图:6自由度姿态跟踪可视化,其中轮廓(青色)以估计的姿态渲染。

值得注意的是,如第二列所示,我们的预测姿态有时甚至会纠正GT的错误。

右图:每种方法输出的最终3D重建的正面和背面视图。

由于手部遮挡,视频中的某些部分永远不可见。虽然从相同的视角渲染网格,但是DROID-SLAM和BundleTrack的显著漂移导致网格错误旋转。

200587541b6f42a69ce1b78d510f6df2~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=Kjh1GrF5IkCnMtaUWI%2B1tSTv7oM%3D

定量结果对比如下:

ae21e1bdfce542238c0d6f84622a6302~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=45al%2BpR1fOMyl3MF7Zi0%2FMpI9RU%3D
9125b7c1d1c541d29e6b9fdec7e561c4~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=lFd1M1iZc1POol0vn%2F4S8R9fptc%3D
271c67f7b5014e4ba5175a8e06d85120~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=tuvIY9RmjJw17NH3%2FGYiHoZKv%2Bk%3D

给定一段单目RGBD输入视频以及仅在第一帧中目标物体的分割掩码,该方法能持续追踪物体的6-DoF姿态并重建物体的3D模型。

所有处理都是在线自回归的(没有假设未来帧可用)。

处理的物体是刚性的,但不依赖其特定丰富的纹理 – 方法适用于无纹理的物体。

此外,不需要物体的实例级CAD模型,也不需要物体类别的先验知识(例如事先对同一物体类别进行预训练)。

具体框架

622cdc631cca49bdbf18d94bbb75eeb8~noop.image?_iz=58558&from=article.pc_detail&x-expires=1681019167&x-signature=vIiLtq2v4XmoTd0gFSBH9o8LcYE%3D

首先,在连续的分割图像之间匹配特征,以获得粗略的姿态估计(第3.1节)。

其中一些带姿态的帧被存储在内存池中,以便稍后使用和精化(第3.2节)。

从内存池的子集动态创建位姿图(第3.3节);在线优化与当前姿态一起联合细化图中的所有姿态。

然后,这些更新的姿态被存储回内存池中。

最后,内存池中的所有带姿态的帧用于学习神经物体场(在单独的线程中),该场建模了物体的几何和视觉纹理(第3.4节),同时调整其先前估计的姿态,使姿态跟踪更加鲁棒。

项目地址:
https://bundlesdf.github.io/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK