明星声纹总动员：CNSRC 2022 说话人识别竞赛启动

语音杂谈 2022-01-30 11:00

The following article is from 清语赋 Author 启明星

由 Odyssey 2022 组委会发起，清华大学、厦门大学、希尔贝壳公司共同主办的 CNSRC 2022 说话人识别竞赛即日启动，接受报名。

说话人识别是一种基于声音来判断说话人身份的生物认证技术，具有低成本、弱隐私、无接触等优点，在金融、安防、司法等领域有着广泛应用前景。近年来，随着深度学习技术的进步和大数据的积累，说话人识别取得显著进展，在若干评测集上取得了极高的精度。然而，这些评测集难以模拟实际应用场景的复杂性，得到的评测结果往往与实际真实性能严重不符。因此，当前说话人识别在实际复杂场景下的真实性能到底如何，到目前为止还没有明确的结论。CNSRC 2022 (CN-Celeb Speaker Recognition Challenge 2022) 目的是验证当前说话人识别技术在实际复杂场景下的真实可用性。本次评测基于清华大学语音语言技术中心发布的多场景中文明星数据库 CN-Celeb [1,2]。该数据库包含了互联网公开可下载的 3000 位中国明星的声音数据，覆盖访谈、演讲、歌唱、影视、文娱等多种复杂场景。CN-Celeb 是目前已知最为复杂的说话人数据库，是验证说话人识别系统实际性能的金标准。关于 CN-Celeb 的更多信息，可访问数据库官网 http://cnceleb.org 。

图1 CN-Celeb 数据库官网 http://cnceleb.org

当前主流说话人识别技术在 CN-Celeb 标准评测集上的等错误率 (EER) 在 10% 左右。其中，跨场景测试的等错误率可达 35% 以上。这一性能远低于 SITW、VoxSRC 等相关主流评测集的结果，也远低于实际应用中可容忍的性能下界。CNSRC 2022 说话人识别竞赛的目的是基于这一复杂数据集，确定当前说话人识别技术在真实场景下的真实性能，甄别各种技术面对多复杂场景的实际有效性，探索提高说话人识别系统真实可用性的数据方法和模型方法。和以往类似评测相比，CNSRC 2022 具有极高的挑战性。

图2 基于 Kaldi x-vector 系统在不同场景下的性能

每行对应一个注册场景，每列对应一个测试场景 [2]

CNSRC 2022 共设有两个任务：说话人确认 (Speaker Verification) 和说话人检出 (Speaker Retrieval)；前者验证测试语音是否属于某一声称说话人，后者从50万背景语音中检出目标说话人的10句发音。每个任务依训练数据不同，又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)，前者仅允许使用 CN-Celeb 作为训练集，目的是验证算法先进性；后者可利用任何数据进行训练，目的是验证当前技术能达到的性能上界。厦门大学、清华大学将分别提供两套基线系统，供参赛者作为对比参考。CNSRC 2022 对任何个人和机构开放，并鼓励参赛者基于其竞赛系统形成论文在Odyssey 2022 上发表。目前，竞赛官网已经启动并接受报名。关于竞赛规则、时间节点、论文发表等更多信息，可扫描下方二维码进入竞赛官网，或在浏览器中访问网址 http://cnceleb.org/competition 。

640?wx_fmt=png

[1] Y. Fan, J.W. Kang, L.T. Li, K.C. Li, H.L. Chen, S.T. Cheng, P.Y. Zhang, Z.Y. Zhou, Y.Q. Cai, D. Wang, CN-Celeb: A Challenging Chinese Speaker Recognition Dataset, ICASSP, 2020.[2] L.T. Li, R.Q. Liu, J.W. Kang, Y. Fan, H. Cui, Y.Q. Cai, R. Vipperla, T.F. Zheng, D. Wang, CN-Celeb: Multi-Genre Speaker Recognition, Speech Communication, 2022. 640?wx_fmt=gif