论文分享 | MonTTS：完全非自回归的实时、高保真蒙古语语音合成模型

语音杂谈 2021-12-21 11:00

The following article is from 智能语音新青年 Author 新青年

近期，内蒙古大学计算机学院首次利用非自回归语音合成技术实现了完全非自回归的实时高保真蒙古语语音合成模型MonTTS。该MonTTS模型可以以蒙古文文本为输入对mel-spectrum声学参数进行非自回归预测，之后利用HiFi-GAN声码器实现几乎实时的高保真蒙古语语音合成能力。

相关论文《MonTTS: A Real-time and High-fidelity Mongolian TTS Model with Complete Non-autoregressive Mechanism》（作者：刘瑞，康世胤，李劲东，飞龙，高光来）已经被中文信息学报录用。

论文地址：

https://tinyurl.com/ycxnk3ty

项目主页：

https://github.com/ttslr/MonTTS

1.摘要

针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题：

合成效率较低；
合成语音保真度较低。

该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度，根据蒙古语声学特点提出以下改进：

使用蒙古文音素序列来表征蒙古文发音信息；
提出音素级的声学调节器以学习长时韵律变化；
提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。

同时，该文构建了一个当前最大规模的蒙古语语音合成数据库：MonSpeech。实验结果表明MonTTS在韵律自然度方面的主观平均意见分数（Mean Opinion Score,MOS）达到4.53，显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型；MonTTS合成实时率达3.63×10-3，满足实时高保真合成要求。

2.引言

近年来，端到端语音合成技术有效避免了传统多阶段建模导致的误差积累，同时简化了过多的人为假设，实现了媲美真实语音的合成效果。主要包括两方面的研究突破：1）端到端声学建模；2）神经网络声码器。

对于声学建模研究，端到端声学建模主要采用“编码器-解码器”结构直接学习<文本，语音参数>对的对齐关系。其中比较有代表性的是Tacotron模型、Transformer模型及它们的多种变体。以上模型在进行解码时，都是以上一时刻的输出作为下一时刻的输入进行声学参数的预测。这样的自回归解码结构极大限制了语音合成的实时性，并不能充分利用目前高度发展的（如GPU等）并行计算硬件的计算资源。为了提高解码速度，研究人员进一步提出基于非自回归声学建模的语音合成模型，如FastSpeech、FastSpeech2（s）等。非自回归声学模型可以以给定文本为输入，并行输出全部声学参数序列，而不依赖于历史时刻解码得到的声学参数。

对于声码器研究，研究人员提出了基于神经网络的声码器来直接对语音样本点建模，如WaveNet，WaveRNN等。神经声码器直接学习语音参数和语音波形采样点之间的映射关系，显著提高了合成语音的保真度。但是基于WaveNet的声码器同样遵循自回归结构进行语音波形采样点的预测，这样的自回归生成过程耗时严重。而语音重构的时间效率同样影响整个语音合成的实时性能。因此，为了加快神经网络声码器的语音生成速度，非自回归神经网络声码器逐渐受到广泛关注。如Parallel WaveNet, WaveGlow, MelGAN, HiFi-GAN等。在合成语音高保真的同时，极大地提升了语音生成速度，能够达到实时语音生成。

根据以上研究，为了解决蒙古语语音合成系统目前面临的实时性和音频保真度两个问题，本文首次提出了包括非自回归声学模型和非自回归神经声码器的完全非自回归蒙古语语音合成模型MonTTS，其中非自回归模型基于当前最先进的FastSpeech2模型。为了提高合成蒙古语语音的韵律自然度/保真度，我们面向蒙古语提出了以下改进：

针对蒙古语文本表示，拉丁字符表示不足以表征蒙古语的发音信息，本文使用音素序列作为输入表示；
针对蒙古语韵律建模，我们提出音素级别的基频、能量预测器，以更好地学习长时韵律变化；
针对蒙古语时长建模，我们提出基于蒙古语语音识别和蒙古语自回归语音合成模型对训练数据的音素时长信息进行提取，为非自回归蒙古语时长预测提供精确的时长监督信息。

对于非自回归神经声码器，为了快速生成高保真合成语音，我们选择当前最先进的基于生成对抗网络（GAN）的声码器：HiFi-GAN，进行语音波形的重建。

为了确保基于数据驱动的端到端声学建模技术在蒙古语中得到充分训练，构建了当前最大规模（约40小时）的蒙古语语音合成语料库：MonSpeech。

综上所述，本文主要贡献总结为如下几点：

本文提出了完全非自回归蒙古语语音合成模型MonTTS，包括改进的非自回归声学建模和非自回归神经声码器。
本文针对蒙古语提出了三点创新的改进，包括音素序列的文本发音表示、音素级别的长时韵律建模、蒙古语音素时长监督提取等，在高效合成语音的同时有效保证了合成蒙古语语音的韵律自然度。
本文构建了目前最大规模（约40小时）的蒙古语语音合成语料库MonSpeech，以尽可能满足基于数据驱动的端到端语音合成模型的训练数据需求。
本文首次针对非自回归蒙古语语音合成开展研究，填补了国内蒙古语语音合成研究的空白，本文工作也将对促进蒙古文智能信息处理和少数民族地区的人工智能技术发展贡献力量。

3.蒙古语语音合成语料库MonSpeech

MonSpeech由内蒙古大学计算机学院授权，在内蒙古大学计算机学院标准录音室录制完成。文字抄本包含约4万条蒙古文语句，其中包含政治、商业、运动、娱乐等领域。该抄本覆盖了全部的蒙古文字母及丰富的单词组合情况。发音人为一名蒙古族女性专业蒙古语播音员，年龄22岁。最终录制数据总时长约40小时（其中平均每句话包含首尾静音段0.3秒），数据存储格式为：采样率44.1 kHz,采样精度16 bit。MonSpeech数据统计情况如表1所示。

另外，我们对数据中的句子时长进行统计，统计结果如图1所示。

4.MonTTS：完全非自回归的实时、高保真蒙古语语音合成模型

MonTTS语音合成模型完全采用非自回归机制。具体包括非自回归蒙古语声学模型和非自回归神经声码器。如图2a所示，给定蒙古文句子，非自回归蒙古语声学模型以蒙古文句子的音素序列为输入，并行输出对应的Mel谱序列。非自回归声学声码器以句子的Mel谱序列为输入，并行输出语音采样点并最终输出合成蒙古语语音。

4.1非自回归声学模型

非自回归蒙古语声学模型以FastSpeech2为基础，具体结构包括蒙古文文本预处理（Mongolian Text Preprocessing）、蒙古文文本编码器（Mongolian Text Encoder）、蒙古语声学调节器（Mongolian Variance Adaptor）和蒙古语声学解码器（Mel Decoder）。

其中，蒙古文文本预处理将输入的蒙古文句子转换为其音素表示，得到蒙古文音素序列（Mongolian Phoneme Sequence）。蒙古文文本编码器以蒙古文音素序列为输入，将其编码为高层的音素特征表示；蒙古语声学调节器内部的时长（duration）、基频（Pitch）、能量（Energy）预测器以音素向量为输入，分别预测出时长基频能量等声学信息并将其规整并附加到音素向量，得到调节后的隐含向量表示；最后声学解码器以隐含向量表示为输入对Mel谱进行并行预测。

蒙古文文本预处理包括编码校正，拉丁转换、文本正则化和字母转音素四个模块。首先，编码校正块对输入蒙古文中的字符编码进行校正，将编码错误的蒙古文字符转换为其正确的显现形式；之后，根据蒙古文拉丁字母对照表，将校正后的蒙古文字符统一转换为拉丁表示形式。其次，针对蒙古文文本中经常出现的高频特殊字符（如：时间、日期、英文单词和阿拉伯数字等），设计了多达约140种相应的正则表达式进行过滤。这140多种正则表达式基本覆盖了95%以上的非蒙古文特殊字符情况，可以准确的将不规范蒙古文文本转换为规范的蒙古文拉丁字符表示序列。之后我们使用基于联合对齐注意力机制的蒙古文字母转音素模型的蒙古文字母转音素（Grapheme to Phoneme，G2P）模型将拉丁字符序列转换为其音素序列表示。该蒙古文字母转音素模型词错误率低至6.2%，与汉语英语的前端文本处理模块相比，已达到可用水平。最终得到的音素序列作为蒙古文文本的表示序列。最后，文本编码器用来将音素序列进行语义信息编码，输出音素向量。

蒙古语声学调节器

1）蒙古语时长预测器

蒙古语时长预测器以文本编码器输出的音素向量为输入，对音素的持续时间信息（每个音素持续语音帧的数量）进行预测。其内部结构与FastSpeech2类似。在模型训练阶段，我们需要为蒙古语声学调节器中的时长预测器准备蒙古文音素的时长信息作为训练目标来计算时长损失函数。

因此，如图2b所示，本文分别采用 ①大规模蒙古语语音识别数据下预训练的蒙古语语音识别模型以及 ②MonSpeech下预训练的自回归蒙古语语音合成模型进行蒙古语音素时长信息的提取，作为时长预测器的训练目标来计算。下面将对这两种方法进行详细介绍：

① 基于蒙古语语音识别的对齐方法（ASRDur）：

如图2c所示，蒙古语语音识别模型以语音的梅尔倒频谱系数（Mel Frequency Cepstral Coefficents，MFCC）为输入，通过6层TDNN网络和1层Softmax输出层输出每个音素的状态标签。最后，所需要的音素时长可以根据“状态标签-语音帧-音素”三者之间的对应关系转换得到。

② 基于自回归蒙古语语音合成的对齐方法（ARTTSDur）：

如图2d所示，基于自回归声学建模的蒙古语语音合成模型以蒙古文音素表示为输入，通过“编码器-注意力-解码器”的模型结构对语音的Mel频谱参数进行预测。在训练阶段，编码器与解码器之间的注意力机制用来学习输入音素与输出语音帧之间的对齐关系。训练结束后，可以对任意输入蒙古文音素序列进行前向计算，得到该序列的注意力矩阵并从中解析出该输入序列中每个音素的持续时间。

2）音素级基频和能量预测器

音素级基频和能量预测器以蒙古文文本编码器输出的音素向量为输入，分别对音素级别的基频（Phoneme-level Pitch，PP）和能量（Phoneme-level Energy，PE）参数进行预测。

4.2非自回归神经声码器

本文选择当前最优的基于GAN的非自回归声码器：HiFi-GAN进行蒙古语语音波形的生成。MonTTS系统摒弃之前使用的Griffin-Lim语音重构算法，首次使用蒙古语语音合成数据成功训练得到高质量的蒙古语HiFi-GAN声码器，可以在实时Mel频谱参数预测的基础上，实时合成高保真的蒙古语语音。

5.实验及结果

5.1对比实验设计

为了验证本文提出的MonTTS在解码效率和语音音质两方面的表现，本文一共构建了6个系统：

Tacotron2（GL）：该系统使用基于自回归机制的Tacotron2语音合成模型进行Mel谱参数预测，之后使用Griffin-Lim算法进行语音重构；
Tacotron2（HiFiGAN）：该系统同样使用Tacotron2模型预测Mel谱，与第一个系统不同的是，使用 HiFiGAN声码器进行语音的生成。
FastSpeech2+ASRDur（HiFiGAN）：该系统采用FastSpeech2模型进行Mel预测，使用HiFiGAN声码器进行语音生成。其中，时长预测器的训练目标由蒙古语语音识别模型提供。ASRDur表示基于蒙古语语音识别模型的时长预提取方法。
FastSpeech2+ARTTSDur(HiFiGAN)：该系统采用FastSpeech2模型进行Mel预测，使用HiFiGAN声码器进行语音生成。其中，时长预测器的训练目标由自回归蒙古语语音合成模型提供。ARTTSDur表示基于自回归蒙古语语音合成模型的时长预提取方法。
MonTTS+ASRDur(HiFiGAN)：该系统采用本文提出的MonTTS模型进行Mel预测，使用HiFiGAN声码器进行语音生成。与FastSpeech2+ASRDur类似，时长预测器的训练目标由蒙古语语音识别模型提供。与（3）和（4）相比，MonTTS在蒙古语声学调节器中使用字符级的基频和能量预测器。
MonTTS+ARTTSDur(HiFiGAN)：该系统同样采用MonTTS模型和HiFiGAN声码器。其中，时长预测器的训练目标由自回归蒙古语语音合成模型提供。

5.2蒙古文文本表示比较

首先基于Tacotron2（GL）模型对蒙古文的文本表示方法进行比较。我们分别使用拉丁字符表示和音素表示进行模型的训练，并进行主观听力测试比较二者合成语音的质量。

实验结果如图3所示，音素序列表示的MOS分数为3.98，显著优于字符序列的分值3.82。表明音素序列与蒙古文的发音信息直接相关，可以合成自然度更高的语音。之后的实验中，所有的蒙古语语音合成系统均以音素序列作为输入。

5.3蒙古文时长对齐方法比较

对基于蒙古语语音识别和自回归蒙古语语音合成两种音素时长对齐方法的准确度进行比较。我们从测试集中随机选取50句蒙古语语音及其对应音素序列，使用Praat软件进行音素时长标注。之后，分别使用两种对齐方法得到的音素时长和标注的真实音素时长计算时长准确率（phoneme duration accuracy）。

实验结果如表2所示，从表中可以看到，语音识别对齐方法相比自回归语音合成对齐方法可以得到更精确的时长信息。分析原因可能有以下两点：1）蒙古语语音识别模型基于1500小时的大规模多说话人训练数据训练得到，模型具有很好的泛化性，可以得到精确的“状态标签-语音帧-音素”对应关系；2）基于自回归语音合成对齐方法中，注意力机制的选择是能否得到精确对齐关系的关键之一，对角线指导的guided attention还没有体现出注意力对齐的单调特性，可能导致对齐信息不够精确。

5.4蒙古语语音合成韵律自然度比较

从客观实验和主观实验两个方面对不同系统在合成语音音质方面的性能进行详细比较。对于客观实验，我们选择Mel Cepstral Distortion(MCD)以及pitch和 energy的均方误差（Mean Absolute Error，MAE）三个指标进行语音质量的测试。对于主观实验，我们进行主观MOS听力测试。测试样本选择与客观实验相同，我们邀请15位蒙古族青年学生对所有合成语音和对应的真实语音进行MOS打分。

客观实验结果如表3所示，可以发现：

所有的非自回归语音合成模型FastSpeech2 和 MonTTS都明显优于Tacotron2模型；
本文提出的MonTTS模型与FastSpeech2相比可以合成更接近真实语音的语音参数，从而合成更加自然的语音，也证明了我们的音素级别声学调节器可以更好的学习蒙古语的长时韵律特征从而生成韵律更自然的语音；
与MonTTS+ARTTSDur相比，MonTTS+ASRDur输出的语音参数明显较优。从另一角度证明语音识别对齐方法可以提供更加准确的时长监督，有利于更加自然的语音生成；
本文基于MonSpeech训练的HiFi-GAN声码器显著优于传统的Griffin-Lim算法，可以得到高质量的合成语音。

主观实验结果如图4所示，从图中可以看出本文提出的MonTTS系统搭配我们首次基于MonSpeech数据训练得到的HiFi-GAN 声码器，可以输出高保真的合成语音，合成语音获得了接近4.53的MOS分数，显著优于所有基线系统，并且与真实语音的MOS分数基本相当。

5.5蒙古语语音合成效率比较

同样采用上一节的50句测试集进行语音合成速度测试。我们使用不同系统对50句测试集进行10次语音合成，统计每次合成所需要的时间。之后以50测试集对应真实语音的时间为参照，计算语音合成实时率（Real-time factor，RTF）。

实验结果如表4所示，从表中我们发现1）MonTTS（HiFi-GAN）与Tacotron2（HiFi-GAN）相比，实时率显著提升，说明非自回归声学模型在合成效率上显著优于自回归Tacotron2结构；2）Tacotron2（HiFi-GAN）与Tacotron2（GL）相比，说明本文训练得到的HiFi-GAN声码器同样凭借其非自回归的快速波形生成能力在合成效率上表现出优秀的性能。本文提出的MonTTS（HiFi-GAN）的合成实时率达到了3.63× 10-3，已经达到实时合成，可以很好的满足实际应用需求。

论文总结

本文提出首个完全非自回归机制的实时、高保真蒙古语语音合成系统MonTTS。基于当前先进的FastSpeech2并针对蒙古文文本表示、蒙古文韵律建模和蒙古文时长建模提出音素表示、音素级基频和能量预测器以及基于蒙古语语音识别和自回归蒙古语语音合成的时长对齐方法。实验结果表明，本文提出的MonTTS在语音质量和合成效率两方面优于所有基线系统，达到高保真语音的实时合成，可以为上游蒙古语语音交互系统提供全新的技术服务。本文实验仅使用单一女性说话人语料进行实验，为了更好的验证模型在不同说话人的效果，未来工作将收集整理更多的说话人数据（包括不同年龄段的男性和女性说话人等）对MonTTS模型的有效性进行验证。更进一步，未来研究将对该模型进行扩展，实现高质量的多说话人和多情感的蒙古语语音生成能力。