论文推介：语音合成中基于风格和说话人成分解耦的风格迁移

语音杂谈 2022-01-30 11:00

The following article is from 音频语音与语言处理研究组 Author 安晓春

目前的语音合成系统大多基于单一说话人单一风格语音数据建模，但随着语音合成应用场景的不断扩展，对多风格语音合成的需求越来越大。然而单人多风格数据难以获取，一来成本高，二来不是每个发音人都能完成不同风格的录制。一种最直接的方式是通过语音风格迁移（style transfer）的方法来解决该问题。

语音风格迁移旨在保持目标说话人音色的同时，将源语音中的讲话风格迁移到目标说话人的语音上。当前语音风格迁移技术已经取得了良好的性能，但这种性能仍然局限在训练数据中见过的风格和说话人。因此，将一个有任意风格的新说话人的语音迁移到目标风格上仍是一项极具挑战性的任务。针对风格迁移中情感不够丰富的问题，实验室去年提出了基于端到端语音合成的可控情感迁移方案[1]。近期，实验室与微软亚洲研究院（MSRA）合作发表的论文“Disentangling style and speaker attributes for TTS style transfer”被语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)接收，该论文是先前Interspeech上发表的相关论文[2]的扩展。该论文基于语音中风格和说话人成分的不同信息表征，提出了一种基于风格和说话人成分解耦的语音风格迁移建模方案。在主流端到端语音合成框架下，通过三个子模块，对语音中的风格和说话人成分进行有效地解耦，在一个模型框架下，实现将具有任意风格的说话人语音迁移到目标风格上，即使该说话人是训练数据中没有见过的，也可以实现有效的风格迁移。现对该论文进行简要的解读和分享。题目Disentangling style and speaker attributes for TTS style transfer期刊IEEE/ACM Transactions on Audio, Speech and Langauge Processing作者安晓春，宋謌平(Frank K. Soong)，谢磊链接

https://arxiv.org/abs/2201.09472

发表论文截图

背景动机近年来，随着深度学习的发展，基于神经网络的语音合成系统能够生成与人类语音非常接近的语音。然而，为了满足多样化的语音交互场景，不仅需要合成高表现力的语音，更需要实现“单人千面”的功能，满足不同的“人设”需求，比如朗读、客服、主播等。然而单人多风格数据难以获取，一来成本高，二来不是每个发音人都能完成不同风格的录制。一种最直接的方式是通过语音风格迁移（style transfer）的方法来解决该问题，即“借助”他人录制语音的风格，通过风格迁移，实现目标说话人具有该风格的语音合成。对于语音风格迁移，一种较早的方案[3][4]就是从一个参考音频（reference）中学习到目标风格表达，用学习到的风格来指导TTS系统合成相应风格的语音。然而这个方案只能对训练中见过的风格进行迁移，不能在不相交的多风格数据上进行风格迁移，且其迁移效果和所选的目标风格的参考音频息息相关。为了解决这个问题，基于多参考（multi-reference）的语音风格迁移方案[5][6]是一种解决思路，该方案通过结合多参考编码器和交叉训练或对抗循环一致性训练的方法来实现对不相交的多风格数据的语音风格迁移。尽管基于多参考音频的语音风格迁移性能比基于单参考的方案在不相交的多风格数据上效果要好，但该种方法仍然无法很好地对一个有任意风格的新说话人的语音进行风格迁移。考虑到语音中风格和说话人成分的不同表征特性，本文提出了一个基于风格和说话人成分解耦的语音风格迁移架构，有效提升了可见（seen）和不可见（unseen）语音风格迁移效果。该框架是一个基于主流编码器-解码器的TTS框架，结合两个提出的子模块，分别对风格和说话人成分的表征进行解耦。具体来讲，在风格编码模块中通过逆自回归流（Inverse autoregressive flows，IAF）方法[7]学习高表现力的风格表征；设计一个与模型联合训练的说话人编码模块学习有判别能力的说话人表征；同时，在多个损失函数约束下实现对风格和说话人的解耦，从而作为生成器的条件（condition）来迁移语音的风格。

方案简介图1为语音风格迁移的整体方案，采用基于编码器-解码器的TTS框架，结合了本文提出的两个子模块，风格编码模块和说话人编码模块。风格编码和说话人编码模块都是以音频作为输入，在模型训练中以解耦风格和说话人表征作为目标进行学习。这两个模块的输出，同时作为生成模块的condition来进行语音的风格迁移。

图1 语音风格迁移框架图

风格编码模块主要包括三个子模块：参考编码器（reference encoder），IAF流和风格分类器，目的是提取较好的不同风格表征。其中，主要通过风格差异损失来约束源句子的风格表征接近于目标风格的表征： 640?wx_fmt=png

说话人编码模块主要由三层的LSTM和说话人分类器组成，该模块与其余的网络模块是一起联合训练的。其中，主要利用循环一致性损失来确保源句子的说话人身份保持不变：

同时，在上述的风格编码和说话人编码中分别使用风格和说话人的分类损失来学习更加有区别的风格和说话人表征，用以区别不同的风格和抓住不同说话人的特点：

在生成风格表征和说话人表征后，使用重构损失来保证生成模块[8]对生成句子的重构精度：

此外，本文采用对抗损失，通过一个判别器D来辨别生成句子的真假，其中生成模块的目的是“愚弄”该判别器：

实验验证实验数据不相交的多风格数据：训练时使用源数据和目标数据，其中源数据包含文本朗读（R）、电台播报（B）、谈话（T）和读故事（S）这四种风格，分别来自于四个不同的说话人；而目标数据包含客服（C）、古诗诵读（P）和游戏角色（G）这三种风格且分别来自于另外三个不同的说话人。预测推理时，分别随机选取见过的文本朗读风格（R）和没见过的一个新说话人的台湾口音风格（TR）来分别迁移到目标风格客服（C）、古诗诵读（P）和游戏角色（G）上，用以验证可见（R2C，R2P，R2G）和不可见（TR2C，TR2P，TR2G）语音风格迁移的性能。对比实验本文从语音自然度、风格相似度和说话人相似度三个方面来对不同系统进行评估，分别使用基于单参考的语音风格迁移模型（GST[3]、VAE[4]）和基于多参考的语音风格迁移模型（MRF-IT[5]、MRF-ACC[6]）分别作为对比系统，与本文对比评估可见和不可见语音风格迁移的效果。语音自然度评估：对语音自然度采用MOS打分和ABX偏好测试方式对不同系统进行评估。从表1和2的结果中能够看出，本文提出方法的效果在整体上优于所有对比系统，尤其是在不可见语音风格迁移任务上具有更为明显优势。实验结果表明，提出的方法在可见和不可见语音风格迁移任务上拥有更好的泛化性能。

表1 不同系统在可见和不可见风格迁移上的MOS结果

表2 不同系统在可见和不可见风格迁移上的ABX结果

风格相似度评估：在迁移后语音风格相似度方面，采用风格分类准确率、风格嵌入可视化和风格ABX偏好测试进行评估。从表3、图2和表4的测试结果中能够看出，本文提出的方法有效提升了可见和不可见语音风格迁移的性能。而对于不可见风格迁移，对比系统在大多数情况下都不能准确的将台湾口音的风格迁分别迁移到客服、古诗和游戏风格上。

表3 不同系统在可见和不可见风格迁移上的风格分类结果

图2 不同系统在可见和不可见风格迁移上风格嵌入的t-SNE可视化结果

表4 不同系统在可见和不可见风格迁移上风格的ABX结果

说话人相似度评估：在说话人相似度方面，采用说话人CMOS、余弦相似度和说话人分类准确率进行评估。从表5-7的结果中能够看出，本文提出方法在可见和不可见风格迁移任务上比对比系统都能够传递更好的说话人相似度，表明本文的方法在风格迁移的同时能够更好的保持目标说话人音色信息。

表5 不同系统在可见和不可见风格迁移上说话人相似度的CMOS结果

表6 不同系统在可见和不可见风格迁移上cosine相似度结果

表7 不同系统在可见和不可见风格迁移上说话人分类准确率结果

组件分析IAF子模块对风格迁移的影响：如图3中ABX实验结果所示，IAF子模块的加入能够有效生成更加富有表现力的风格表征，从而改善可见和不可见风格迁移的性能。

图3 有无IAF子模块在风格相似度上的ABX结果

风格和说话人分类器对风格迁移的影响：图4中ABX实验结果表明，在所有可见和不可见语音风格迁移任务中，和Pre-model相比，本文提出的方法获得了更高偏好，听众能够更好地从合成语音中辨别出不同风格和不同说话人。

图4 有无风格和说话人分类器在风格和说话人相似度上的ABX结果

不同损失函数对风格迁移的影响：为验证不同损失函数对可见和不可见语音风格迁移的有效性，本文分别对比了不同损失函数约束下风格和说话人的主观分类结果。表8和9的实验结果显示，每个损失函数的加入均能够给风格和说话人的主观分类带来稳定的正向收益，其中加入所有损失函数约束时效果最优。

表8 不同损失函数约束下的主观风格分类的准确率

表9 不同损失函数约束下的主观说话人分类的准确率

样例展示

目标风格：

目标客服风格语音（C）

target_C 音频： 00:00 / 00:03

目标古诗诵读风格语音（P）

target_P 音频： 00:00 / 00:07

可见语音风格迁移：

源朗读风格语音（R）

source_R 音频： 00:00 / 00:03

朗读->客服合成语音（R2C）

R2C 音频： 00:00 / 00:02

朗读->古诗诵读合成语音（R2P）

R2P 音频： 00:00 / 00:03

不可见语音风格迁移：

源台湾口音风格语音（TR）

source_TR 音频： 00:00 / 00:05

台湾口音->客服合成语音（TR2C）

TR2C 音频： 00:00 / 00:05

台湾口音->古诗诵读合成语音（TR2P）

TR2P 音频： 00:00 / 00:04

更多样例请访问：

https://xiaochunan.github.io/disentangling/index.html

参考文献[1] T. Li, S. Yang, L. Xue, and L. Xie, “Controllable emotion transfer for end-to-end speech synthesis,” in Proc. ISCSLP, 2021, pp. 1–5.[2] X. An, F. K. Soong, L. Xie, “Improving performance of seen and unseen speech style transfer in end-to-end neural TTS,” in Proc. INTERSPEECH, 2021, pp. 4688–4692.[3] Y. Wang, D. Stanton, Y. Zhang, R. Skerry-Ryan, E. Battenberg, J. Shor, Y. Xiao, F. Ren, Y. Jia, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in Proc. ICML, 2018, pp. 5180–5189.[4] Y. Zhang, S. Pan, L. He, and Z. Ling, “Learning latent representations for style control and transfer in end-to-end speech synthesis,” in Proc. ICASSP, 2019, pp. 6945–6949.[5] Y. Bian, C. Chen, Y. Kang, and Z. Pan, “Multi-reference tacotron by intercross training for style disentangling, transfer and control in speech synthesis,” in Proc. INTERSPEECH, 2019.[6] M. Whitehill, S. Ma, D. McDuff, and Y. Song, “Multi-reference neural TTS stylization with adversarial cycle consistency,” in Proc. INTERSPEECH, 2020, pp. 4442–4446.[7] D. P. Kingma, T. Salimans, R. Jozefowicz, X. Chen, I. Sutskever, and M. Welling, “Improving variational inference with inverse autoregressive flow,” in Proc. NIPS, 2016, pp. 4743–4751.[8] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” in Proc. ICASSP, 2018, pp. 4779–4783.

640?wx_fmt=gif