论文推介:语音合成中基于风格和说话人成分解耦的风格迁移
source link: https://mp.weixin.qq.com/s?__biz=MzU4MTA0NDE5NQ%3D%3D&%3Bmid=2247493278&%3Bidx=2&%3Bsn=653af6bd1472995c7efaee139226a9de
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
论文推介:语音合成中基于风格和说话人成分解耦的风格迁移
The following article is from 音频语音与语言处理研究组 Author 安晓春
目前的语音合成系统大多基于单一说话人单一风格语音数据建模,但随着语音合成应用场景的不断扩展,对多风格语音合成的需求越来越大。然而单人多风格数据难以获取,一来成本高,二来不是每个发音人都能完成不同风格的录制。一种最直接的方式是通过语音风格迁移(style transfer)的方法来解决该问题。
https://arxiv.org/abs/2201.09472
发表论文截图
背景动机近年来,随着深度学习的发展,基于神经网络的语音合成系统能够生成与人类语音非常接近的语音。然而,为了满足多样化的语音交互场景,不仅需要合成高表现力的语音,更需要实现“单人千面”的功能,满足不同的“人设”需求,比如朗读、客服、主播等。然而单人多风格数据难以获取,一来成本高,二来不是每个发音人都能完成不同风格的录制。一种最直接的方式是通过语音风格迁移(style transfer)的方法来解决该问题,即“借助”他人录制语音的风格,通过风格迁移,实现目标说话人具有该风格的语音合成。对于语音风格迁移,一种较早的方案[3][4]就是从一个参考音频(reference)中学习到目标风格表达,用学习到的风格来指导TTS系统合成相应风格的语音。然而这个方案只能对训练中见过的风格进行迁移,不能在不相交的多风格数据上进行风格迁移,且其迁移效果和所选的目标风格的参考音频息息相关。为了解决这个问题,基于多参考(multi-reference)的语音风格迁移方案[5][6]是一种解决思路,该方案通过结合多参考编码器和交叉训练或对抗循环一致性训练的方法来实现对不相交的多风格数据的语音风格迁移。尽管基于多参考音频的语音风格迁移性能比基于单参考的方案在不相交的多风格数据上效果要好,但该种方法仍然无法很好地对一个有任意风格的新说话人的语音进行风格迁移。考虑到语音中风格和说话人成分的不同表征特性,本文提出了一个基于风格和说话人成分解耦的语音风格迁移架构,有效提升了可见(seen)和不可见(unseen)语音风格迁移效果。该框架是一个基于主流编码器-解码器的TTS框架,结合两个提出的子模块,分别对风格和说话人成分的表征进行解耦。具体来讲,在风格编码模块中通过逆自回归流(Inverse autoregressive flows,IAF)方法[7]学习高表现力的风格表征;设计一个与模型联合训练的说话人编码模块学习有判别能力的说话人表征;同时,在多个损失函数约束下实现对风格和说话人的解耦,从而作为生成器的条件(condition)来迁移语音的风格。方案简介图1为语音风格迁移的整体方案,采用基于编码器-解码器的TTS框架,结合了本文提出的两个子模块,风格编码模块和说话人编码模块。风格编码和说话人编码模块都是以音频作为输入,在模型训练中以解耦风格和说话人表征作为目标进行学习。这两个模块的输出,同时作为生成模块的condition来进行语音的风格迁移。
图1 语音风格迁移框架图
风格编码模块主要包括三个子模块:参考编码器(reference encoder),IAF流和风格分类器,目的是提取较好的不同风格表征。其中,主要通过风格差异损失来约束源句子的风格表征接近于目标风格的表征:说话人编码模块主要由三层的LSTM和说话人分类器组成,该模块与其余的网络模块是一起联合训练的。其中,主要利用循环一致性损失来确保源句子的说话人身份保持不变:同时,在上述的风格编码和说话人编码中分别使用风格和说话人的分类损失来学习更加有区别的风格和说话人表征,用以区别不同的风格和抓住不同说话人的特点:在生成风格表征和说话人表征后,使用重构损失来保证生成模块[8]对生成句子的重构精度:此外,本文采用对抗损失,通过一个判别器D来辨别生成句子的真假,其中生成模块的目的是“愚弄”该判别器:实验验证实验数据不相交的多风格数据:训练时使用源数据和目标数据,其中源数据包含文本朗读(R)、电台播报(B)、谈话(T)和读故事(S)这四种风格,分别来自于四个不同的说话人;而目标数据包含客服(C)、古诗诵读(P)和游戏角色(G)这三种风格且分别来自于另外三个不同的说话人。预测推理时,分别随机选取见过的文本朗读风格(R)和没见过的一个新说话人的台湾口音风格(TR)来分别迁移到目标风格客服(C)、古诗诵读(P)和游戏角色(G)上,用以验证可见(R2C,R2P,R2G)和不可见(TR2C,TR2P,TR2G)语音风格迁移的性能。对比实验本文从语音自然度、风格相似度和说话人相似度三个方面来对不同系统进行评估,分别使用基于单参考的语音风格迁移模型(GST[3]、VAE[4])和基于多参考的语音风格迁移模型(MRF-IT[5]、MRF-ACC[6])分别作为对比系统,与本文对比评估可见和不可见语音风格迁移的效果。语音自然度评估:对语音自然度采用MOS打分和ABX偏好测试方式对不同系统进行评估。从表1和2的结果中能够看出,本文提出方法的效果在整体上优于所有对比系统,尤其是在不可见语音风格迁移任务上具有更为明显优势。实验结果表明,提出的方法在可见和不可见语音风格迁移任务上拥有更好的泛化性能。表1 不同系统在可见和不可见风格迁移上的MOS结果
表2 不同系统在可见和不可见风格迁移上的ABX结果
风格相似度评估:在迁移后语音风格相似度方面,采用风格分类准确率、风格嵌入可视化和风格ABX偏好测试进行评估。从表3、图2和表4的测试结果中能够看出,本文提出的方法有效提升了可见和不可见语音风格迁移的性能。而对于不可见风格迁移,对比系统在大多数情况下都不能准确的将台湾口音的风格迁分别迁移到客服、古诗和游戏风格上。表3 不同系统在可见和不可见风格迁移上的风格分类结果
图2 不同系统在可见和不可见风格迁移上风格嵌入的t-SNE可视化结果
表4 不同系统在可见和不可见风格迁移上风格的ABX结果
说话人相似度评估:在说话人相似度方面,采用说话人CMOS、余弦相似度和说话人分类准确率进行评估。从表5-7的结果中能够看出,本文提出方法在可见和不可见风格迁移任务上比对比系统都能够传递更好的说话人相似度,表明本文的方法在风格迁移的同时能够更好的保持目标说话人音色信息。表5 不同系统在可见和不可见风格迁移上说话人相似度的CMOS结果
表6 不同系统在可见和不可见风格迁移上cosine相似度结果
表7 不同系统在可见和不可见风格迁移上说话人分类准确率结果
组件分析IAF子模块对风格迁移的影响:如图3中ABX实验结果所示,IAF子模块的加入能够有效生成更加富有表现力的风格表征,从而改善可见和不可见风格迁移的性能。图3 有无IAF子模块在风格相似度上的ABX结果
风格和说话人分类器对风格迁移的影响:图4中ABX实验结果表明,在所有可见和不可见语音风格迁移任务中,和Pre-model相比,本文提出的方法获得了更高偏好,听众能够更好地从合成语音中辨别出不同风格和不同说话人。图4 有无风格和说话人分类器在风格和说话人相似度上的ABX结果
不同损失函数对风格迁移的影响:为验证不同损失函数对可见和不可见语音风格迁移的有效性,本文分别对比了不同损失函数约束下风格和说话人的主观分类结果。表8和9的实验结果显示,每个损失函数的加入均能够给风格和说话人的主观分类带来稳定的正向收益,其中加入所有损失函数约束时效果最优。表8 不同损失函数约束下的主观风格分类的准确率
表9 不同损失函数约束下的主观说话人分类的准确率
样例展示
目标风格:
目标客服风格语音(C)
target_C 音频: 00:00 / 00:03
目标古诗诵读风格语音(P)
可见语音风格迁移:
源朗读风格语音 (R)
朗读->客服合成语音(R2C)
朗读->古诗诵读合成语音(R2P)
不可见语音风格迁移:
源台湾口音风格语音 (TR)
台湾口音->客服合成语音(TR2C)
台湾口音->古诗诵读合成语音(TR2P)
更多样例请访问:
https://xiaochunan.github.io/disentangling/index.html
参考文献[1] T. Li, S. Yang, L. Xue, and L. Xie, “Controllable emotion transfer for end-to-end speech synthesis,” in Proc. ISCSLP, 2021, pp. 1–5.[2] X. An, F. K. Soong, L. Xie, “Improving performance of seen and unseen speech style transfer in end-to-end neural TTS,” in Proc. INTERSPEECH, 2021, pp. 4688–4692.[3] Y. Wang, D. Stanton, Y. Zhang, R. Skerry-Ryan, E. Battenberg, J. Shor, Y. Xiao, F. Ren, Y. Jia, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in Proc. ICML, 2018, pp. 5180–5189.[4] Y. Zhang, S. Pan, L. He, and Z. Ling, “Learning latent representations for style control and transfer in end-to-end speech synthesis,” in Proc. ICASSP, 2019, pp. 6945–6949.[5] Y. Bian, C. Chen, Y. Kang, and Z. Pan, “Multi-reference tacotron by intercross training for style disentangling, transfer and control in speech synthesis,” in Proc. INTERSPEECH, 2019.[6] M. Whitehill, S. Ma, D. McDuff, and Y. Song, “Multi-reference neural TTS stylization with adversarial cycle consistency,” in Proc. INTERSPEECH, 2020, pp. 4442–4446.[7] D. P. Kingma, T. Salimans, R. Jozefowicz, X. Chen, I. Sutskever, and M. Welling, “Improving variational inference with inverse autoregressive flow,” in Proc. NIPS, 2016, pp. 4743–4751.[8] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” in Proc. ICASSP, 2018, pp. 4779–4783.永久福利 直投简历
(简历投递):[email protected]
语音杂谈内推助力,leader直收简历
企业招聘旺季,推荐机会不容错过
觉得本篇文章不错?
① 点击右下角“在看”,让更多的人看到这篇文章;② 分享给你的朋友圈;③ 关注语音杂谈公众号。扫码关注我们
语音人的技术客栈
专注于语音技术分享与干货推送
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK