20

一上台就紧张?这个模型帮你生成演讲「替身」,肢体语言比总统候选人还丰富

 4 years ago
source link: https://www.jiqizhixin.com/articles/2020-07-13-7
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了!

emyYzeN.gif

你能看出上图中的人物姿势是仅基于一段语音生成的吗?

基于语音生成上半身动作甚至全身姿势,并实现速度、对称度等高级的姿势控制,瑞典皇家理工学院的一项研究做到了。

该研究提出的方法不仅能够基于语音合成对应的姿势,还可以为同样的语音生成不同的姿势:

7ryi2uJ.gif

VBjyaqV.gif

上面这两组姿势竟然表达的是同一段话?

仅仅这样还不够,该方法还提供高级的风格控制,比如速度:

Mjya6r7.gif

左右方姿势的对称度:

vmuy6n3.gif

说话时姿势动作的半径范围,动作幅度的大小尽在掌控:

qYJriiN.gif

甚至还能控制一侧手臂的高度位置:

eIvq6bA.gif

此外,该方法还可以生成全身的姿势动态,包括站姿的变化和脚步的移动:

IBbMNbY.gif

具体效果参见视频:

Demo 展示的效果征服了一批 reddit 网友。他们表示,如果能将这个技术用在游戏(如《无人深空》)或 VR 产业,那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作,这可以大大降低游戏的开发成本,也能让对话情境下的 VR 人物更加逼真。

qiAbM3v.png!web

那么,如此逼真的姿势动作是如何生成的呢?我们来看这项研究的具体细节。

只用语音生成人物姿势

逼真姿势的自动合成有望改变动画、替身和交际智能体领域。在离线应用中,新工具可以将动画师的角色转变为导演,他只需为期望的动画效果提供高级输入即可。之后,学得的网络将这些指令转换为适当的身体姿势序列。在交互场景中,实时生成自然动画的系统是塑造可信和关联角色的关键所在。

瑞典皇家理工学院的研究者通过对 MoGlow 这一基于深度学习的动作合成方法进行改进,提出了一种新的生成模型,该模型可实现当前最优的语音驱动姿势生成。

得益于该方法的概率属性,在给定相同输入语音信号的情况下,该模型可以生成多个不同且合理的姿势,实现动作的自然变化。

IVBFZrV.png!web

研究者还展示了该模型对输出风格施加指引性控制的能力,如姿势高度、速度、对称度和空间活动范围。这类控制可用来传达期望角色的个性或情绪。研究者在未对数据做任何手动标注的情况下,实现了以上功能。

在实验部分,用户研究表明,该方法生成的上半身姿势动作自然,并且与输入语音非常匹配。该方法的评分高于先前所有的此类系统和基线方法,并且接近原始记录动作的评分。

研究者进一步发现,该方法可以在不损失动作的感知自然度的情况下,准确地控制姿势风格。

最后,研究者展示了该方法同样适用于行走和站立等全身姿态的动作合成。

接下来,我们来看该模型的实现原理和具体效果。

实现原理

该研究提出的概率生成模型基于近期关于归一化流的工作构建,尤其是 MoGlow [HAB19]。该模型可在大型非结构化运动数据集上进行训练,且数据无需手动标注。

与直接基于语音合成动作的方法不同,该模型的训练过程中将语音作为输入,建模动作的条件概率分布。这样就可以基于概率分布采样新的姿势,从而每一次都可以生成不同却合理的姿势。这与人类行为一致,并且可以为虚拟智能体和动画行业提供不错的应用优势。

该方法的优势包括:

  • 数据集无需手动标注;

  • 具备不确定性(因而可以得到无限种类的姿势变体);

  • 能够输出全身姿势。

具体而言,在实现语音驱动姿势合成的过程中,研究者使用了归一化流(normalising flow)。完整的动作生成流程如下图 1 所示:

nM32aeB.png!web

该模型的思路是在使用归一化流的姿势序列  jANzIfI.png!web 稳定自回归模型中,学习姿势 X 的多维下一步(next-step)分布。归一化流这一通用技术在表示大量连续值分布 p(x) 时能够同时实现高效推理(概率计算)以及高效的分布采样。

整体转换和中间结果表示如下:

rYreQvr.png!web

此外,归一化流的核心难题是设计出一个灵活、可逆、可微分且具有快速计算雅克比行列式(Jacobian determinant)的 f_n 变换参数族。2018 年,Diederik P. Kingma 等研究者提出了 Glow 方法,在生成面部图像上实现了显著的效果。之后,又出现了改进版 MoGlow。

MoGlow 专注于零算法延迟的运动控制,并不非常适合语音驱动姿势合成任务。与语音同时出现的人体姿势可以分割为准备、执行(stroke)和撤回三个阶段。

基于此,该研究令时间实例 t 时的控制输入 c_t 同时包含当前语音特征 a_t 以及周围语音特征 fARZZfJ.png!web 的视窗(window),从而将足够的未来信息考虑在内。完整的动作生成流程如上图 1 所示。

实现效果如何?

在所有实验中,评分者需要观看和聆听人体姿势的 18 秒视频片段(如下图所示),并根据给定的评分标准进行打分(5 分制)。

FraAZbe.png!web

人体相似性和适当性评估

下图 3 和表 1 展示了人体相似性、适当性、风格控制人体相似性和全身姿势人体相似性的平均得分:

RrUBJnZ.png!web

风格控制评估

下图 4 展示了风格控制对系统生成动作的影响,其中每一行表示不同的风格控制系统(分别是 M-H、MG-V、MG-R 和 MG-S)。

EBfuAnR.png!web

全身姿势评估

评估结果如上图 3 中最右侧图,全身 GT 平均得分为 4.005,FB-C 平均得分为 3.764,FB-U 平均得分为 3.421。

ryUBN36.png!web

全身姿态的人体相似性评估结果。

缺陷

这项研究在 reddit 上引起了广泛关注和讨论。除了对模型效果表示赞叹以外,也有网友发现了其中需要改进的地方。

例如,有网友指出:「这个模型可以恰当地对节奏和语音强度做出反应,但它似乎并不怎么关注真实的语音信息内容。」

对此,作者之一 Gustav Eje Henter 表示同意:

你说的对!这个模型仅倾听语音(没有文本输入),但并不包含任何人类语言模型。我认为,使用这类模型生成具备语义意义的姿势(尤其还要与语音节奏保持一致)仍是一个未解难题。

该网友还提出了数据问题:「要想使模型达到合理的效果,可能需要大规模数据集。」

对于,Henter 也表示认同:

数据是目前的主要瓶颈。该模型基于同一个人的大约四小时的姿势和语音数据。我们很难找到足够的高质量语音和动作平行数据。一些研究者使用 TED 演讲,但是从此类视频中提取的姿势动作看起来不具备说服力,不够自然。(好的运动数据需要运动捕捉设置和仔细的数据处理。)因此,该研究目前使用的是较小型的高质量数据集。

参考链接:

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/fxuytg1/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK