苹果把NeRF玩出新高度：用单个10s视频，就能重构人物动作和场景

明敏 2022-08-21 15:06:13 来源：量子位

网友：电影界未来的方向

羿阁发自凹非寺

量子位 | 公众号 QbitAI

有了这个发明，以后演员拍戏再也不用抠图了？

答：可以直接一键合成。（手动狗头）

让我们赶紧来看看，这个由苹果最新研发的NeuMan框架：

只需输入一段10s左右的人物视频，就能合成该人物在新场景下做着各种新动作的影像。

前空翻？so easy！

83b203e7e6aa4c91adb309d5849496c1~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=qogxZPDIrq7Eo5FX%2BchrYHDMiHo%3D

跳舞那也是不在话下。

这妖娆的舞姿，看来NeuMan心里也有一个舞魂～

cab17b088e794e5cae68a28d751269f0~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=ZrjVZ7W6TNMJKkWLOjrH01suaBI%3D

有网友看完就表示：喔～简直是电影界未来的发展方向。

617fc7d4f6d04f29ae2e3ff5833262af~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=PQEuCH9KpnVei3CNhE8U%2B%2FtvF0w%3D

目前，有关NeuMan的研究论文已被ECCV’22收录，并且已在GitHub上开源。

ab5a8a1c725f4760abcea8aa7e12bc79~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=X%2F%2BURtp3PffXgHGjMWOKtKBGiyI%3D

全新场景渲染

在介绍NeuMan的原理之前，让我们再来欣赏几个酷炫的例子～

如下图所示，左上角是输入的训练视频，左下角是新的背景，右边则是合成后小哥在新背景下跳跃的效果。

7713989d478d4e39920a899c9a9f859b~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=rpk39NmvZGaLECZCXUr5Rir8%2Fdg%3D

不仅是跳跃这种常规操作，广播体操也完全没问题。

71b8ead9e5284a27b881bcaf3b38a15a~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=kemjITNmRSNt4Lx0gvmzW4ufWOc%3D

更厉害的是，NeuMan还可以将上面例子中的两个人合成到一起。

42153c83676445718228d1c73bef674d~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=GjqZIUPHyxu3OqPlxzFcQknGkao%3D

再加上一个人，立马变成魔性的广场舞视频。

e66c877c3e33412c8b21eec950f5ee08~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=L03FrB5iY2Nb6xO52b8hJMh7WVk%3D

这微笑的小表情，真的很难解释不是本人亲自跳的（手动狗头）。

那么话说回来，这个神奇的NeuMan背后的原理是什么呢？

基于NeRF的新突破

事实上，自从伯克利和谷歌联合打造的NeRF（Neural Radiance Fields神经辐射场）横空出世，各种重建三维场景的研究层出不穷。

NeuMan原理也是基于此，简单来说，就是用单个视频训练一个人物NeRF模型和一个场景NeRF模型，然后再合成在一起生成新的场景。

7b6e89e12fe7414c94e1246d30ed2224~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=eSgoOHG91E4ZWx2L6lPltnorwyw%3D

首先，在训练场景NeRF模型时，我们先从输入的视频中提取相机姿态、稀疏场景模型和多视角-立体深度图。

对于原视频中被人体遮挡的部分，则使用Mask R-CNN进行图像实体分割，将人体掩模膨胀4倍，以确保人体被完全遮蔽。此时，就能做到仅在背景上训练场景NeRF模型。

至于人体NeRF模型训练，研究人员引入了一种端到端的SMPL优化（end-to-end SMPL optimization）和纠错神经网络（error-correction network）。

SMPL（Skinned Multi-Person Linear Model）是一种基于顶点的人体三维模型，能够精确地表示人体的不同形状和姿态。

如下图所示，使用端到端的SMPL优化的人体模型，能够更好地表现人体的典型体积。

04ba8194813b4cb383a92737af6d7e53~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=06ftF%2FpYwg0YLTwHBqnxv4m0M8I%3D

纠错神经网络则是用来弥补SMPL模型无法表达的细节。值得一提的是，它只在训练过程中使用，在进行全新场景渲染时会被放弃，以免造成过度拟合。

接下来，在两个模型对齐的阶段，研究人员先使用COLMAP解决任意尺度下的对齐问题。然后通过假设人类始终与地面有至少一个接触点，来进一步估计该场景的比例。

4ebd4a9275c440838f526af791291780~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=gUCQ4LV4l%2BdKFTHfQtdAqTxkL4M%3D

最后，再应用SMPL网格和场景的点云叠加，就形成了新图像的渲染效果。

6cb43a30e6b04ec9abc377046c580092~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=6cSiCpuRyL%2FJnfg8%2FSb6mI1dOys%3D

最终成品显示，该场景NeRF模型方面模型能够有效地去除场景中的人类，并在有限的场景覆盖下生成高质量的新背景渲染图像。

b9f96130e86b4af8a1cca89f786686fc~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=z7LNxu0ct9c8tPZl7y6rIu0dap0%3D

人物NeRF模型方面也能很好的捕捉人体的细节，包括袖子、衣领甚至衣服拉链，甚至在渲染新动作时，能执行难度极大的侧翻动作。

dbbcdf665697458a94dc6ff0746c81c4~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=BwacGEhyGTJ8BtqR%2B3PkIf%2BssWw%3D

值得一提的是，不同于现行的其他NeRF模型对训练视频要求很高，比如需要多个机位拍摄、曝光要保持不变、背景要干净等等，NeuMan的最大亮点是仅通过用户随意上传的单个视频就能达到同款效果。

d9fc79d5d93c4b67887463979a47dbaf~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=3fSi6QG66gUb7TThUxJyioQrv0E%3D

并且，在分别输入六组不同的视频后，数据显示，与此前方法相比，NeuMan的方法生成的视频渲染质量最佳。

df053cac27b54178bf4a41f2e629ffaf~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=L1R%2F%2Bd%2FHWOUDhb%2BmKSEIEv6o6jE%3D

不过，研究团队也承认，NeuMan的设计目前还存在一些缺陷。

例如，由于人在活动时手势的变化细微又多变，因此生成视频中对手部细节的把握还不是很准确。

另外，在NeRF模型渲染时，由于系统假设人类始终与地面有至少一个接触点，因此NeuMan不能适用于人与地面接触为零的视频，比如人做后空翻的视频。

要想解决这个问题，需要更智能的几何推理知识，这也是未来研究的一个发展方向。

这项研究由苹果机器学习研究中心和英属哥伦比亚大学合作完成。

第一作者Wei Jiang，是英属哥伦比亚大学计算机科学专业的一名四年级博士生，目前在苹果机器学习研究中心实习。

主要研究方向是新视角合成、视觉定位和三维视觉。

e057aa7df7d14d9c9ebd29615c10f99d~noop.image?_iz=58558&from=article.pc_detail&x-expires=1661670055&x-signature=BOcwyFbPfDzZrjTbvus2oPQ1kLo%3D

他还是英属哥伦比亚大学计算机视觉实验室的一员，导师是Kwang Moo Yi 教授。

硕士毕业于波士顿大学计算机科学专业，本科毕业于浙江工业大学软件工程专业。

参考链接：
[1]https://twitter.com/anuragranj/status/1559606408789708800
[2]https://arxiv.org/abs/2203.12575
[3]https://machinelearning.apple.com/research/neural-human-radiance-field
[4]https://github.com/apple/ml-neuman
[5]https://jiangwei221.github.io/

苹果把NeRF玩出新高度：用单个10s视频，就能重构人物动作和场景

苹果把NeRF玩出新高度：用单个10s视频，就能重构人物动作和场景

全新场景渲染

基于NeRF的新突破

Recommend

How the Inflation Reduction Act Affects Food and Agriculture

The Mac Studio is still facing several delays

西班牙最热城市，想用这个技术让地面降温 10℃ | Feel Good 周报

Advanced React component composition

IG、TikTok 为何注入 JS 代码，开发者推出开源工具一探究竟

How To Camelize Object Typing in TypeScript Without Any Library

监测网页内容变化，并发送异动到微信。亦支持http status、json和rss监测。配合自架云...

Mac Studio Still Facing Up to 10-Week Shipping Delay Nearly Six Months After Lau...

杭州的各种「仅限支付宝」是真恶心

Celebrating 10 years of YouTube Creator Awards

About Joyk