10

THU-SPMI@ASRU2021: 基于音位矢量的多语言与跨语言语音识别,促进多语言信息共享与迁...

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU4MTA0NDE5NQ%3D%3D&%3Bmid=2247492179&%3Bidx=1&%3Bsn=c30e4d938dc41511bd30c9460d603d37
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

来自清华大学语音处理与机器智能实验室(THU-SPMI),入选语音顶会(ASRU 2021)

Multilingual and crosslingual speech recognition using phonological-vector based phone embeddings.

Chengrui Zhu, Keyu An, Huahuan Zheng, Zhijian Ou(朱程睿、安柯宇、郑华焕、欧智坚)

IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), 2021.

1背景介绍及研究动机

世界上有超过7000种语言,但绝大多数语言对语音识别来讲是低资源的,即缺乏语音识别所需的大量标注数据。多语言(Multilingual)和跨语言(Crosslingual)语音识别技术,旨在借助多个语言的语音数据,利用不同语言间发音的相通性,更好地建立低资源的目标语言的语音识别系统。

多语言语音识别,指将若干语言的数据混合在一起,共同训练一个声学模型。

跨语言语音识别,则是先训练一个多语言模型,然后针对一个新的语言进行语音识别。如果不使用任何目标语言的语音进行微调(finetune),就是零样本(zero-shot)情形;如果使用少量目标语言的语音对多语言模型进行微调,则是小样本(few-shot)情形。

不同语言在发音方面或多或少都有一定的相似性,这是因为无论哪种人类语言,都是人类的一套发音器官发出来的音嘛,此处省略一千字:)

640?wx_fmt=png
 

多语言和跨语言语音识别的方法,本质上就是希望尽可能利用不同语言发音间的这些相似信息,促进多语言信息共享!如何在多语言语音识别中最大程度地实现这种信息共享呢?现有研究大多采用共同音素集的方法。1888年国际语音学会编制出一套国际音标(International Phonetic Alphabet, IPA),来表示所有语言的音。根据音素的发音方法、发音位置来区分音素,不同语种间发音相似的音素,可以用同一个IPA符号表示。IPA表见图1所示,这张表上的音素可以表示世界上各种语言。懂了这些音标的读法,就能念出它标出的任意语言的词语,也能在听到一个词后用音标来转写该词。

640?wx_fmt=png

图1 国际音标表(IPA)

通常人们认为音素就是语音的基本单元,不可拆分。但是近来的音系学(Phonology)研究表明,音素可以进一步由区别特征(又称音位特征、发音特征)来进行微观表示

来看看图2的类比,帮助我们更好地理解音素的微观表示。

  • 物质的组成基本单元是元素,语音的组成基本单元则是音素,我们耳朵听到的就是一个个的音素组成的单词、句子。

  • 元素周期表上记录了所有的元素;相应地,IPA表包含了所有的音素。

  • 元素原子在微观上由原子核和电子组成,电子的数目和排布方式决定了元素的性质;相应地,音素也可以继续拆分,由音位特征来表示,而音素的发音则由这些音位特征决定。

640?wx_fmt=png

图2 物质构成与语音构成的类比

图3向我们展示了部分IPA音素的24维音位特征,每一维代表一种发音特征,可以用“+”、“-”或“0”表示。“+”表示具备该特征,比如【lateral +】就代表该音素为边音,发音时气流会从舌头两侧流过;“-”代表不具备该特征;“0”则代表该特征与该音素无关,比如辅音是不会表现元音特征的。

640?wx_fmt=png

图3 部分音素的音位特征

如果我们将音素拆分为音位特征的表示,就可以在多语言训练中更好地共享信息

图4给出了西班牙语和意大利语的部分音素。在传统方法中,两个语言之间共享信息只能靠中间那些在两个语言都出现的音素来实现。但音素被拆分为音位特征表示以后,分别在两个语言中出现的西班牙音素ð和意大利语音素ɛ在音位特征的层面上有很多相似,他们仍然可以在这一层面上共享信息,这实在是太妙了!

640?wx_fmt=png

图4 西语、意语的音素集的联系

为了方便声学神经网络模型的训练,24维的音位特征将被编码为51维的比特矢量,这就得到了音位矢量,有了它,我们就可以开始模型训练啦!

2JoinAP方法

本文提出JoinAP(Joining of Acoustics and Phonology)方法,意为结合了声学(Acoustics)和音系学(Phonology)的方法。图5(b)是传统的基于音位特征的方法。这种方法存在两个不足:

  1. 自低而上的音位特征提取,本身就难以保证提取性能;

  2. 在跨语言语音识别中,目标语言如果包含在训练集语言中的未见音素(unseen phones),模型将无法对这些未见音素进行识别。

640?wx_fmt=png

图5 JoinAP方法与传统方法


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK