11

360数科论文入选顶级国际会议ICASSP2023 音频技术研究成果获国际认可

 1 year ago
source link: http://tech.caijing.com.cn/20230315/4923961.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

360数科论文入选顶级国际会议ICASSP2023 音频技术研究成果获国际认可

近日,第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023) 公布了论文入选名单,奇富科技(原360数科)论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被大会接收。

ICASSP由IEEE主办,是全世界最大的、也是最全面的信号处理及其应用方面的顶级学术会议,具有权威、广泛的学界及工业界影响力,备受AI领域研究学者关注。此次入选,显示奇富科技在音频领域的技术实力达到国际领先水平。

凭借在音频技术领域的积累创新,奇富科技也不断将前沿领域研究成果应用于实践。为用户提供优质的服务一直是奇富科技运营的重中之重。相比于以往只通过文本识别用户的情绪,从用户音频中解读的情感信息更加直接和丰富,更有利于指导户交互策略、提升客户体验。而偏主观的情绪判断导致标注任务格外困难,数据标注数量较少、标注结果存在的不一致性都是情绪识别所面临的挑战。考虑到预训练模型的成功和语言表达细粒度的特征,奇富科技引入了一种新的multi-granularity的模型,可以有效融合多模态细粒度的表征和预训练的全局表征,来解决这极具价值而又充满挑战的任务。

该项技术已帮助奇富科技大幅度提升用户服务体验,有效应用在质检服务中,降低客户投诉率4%。而对于基于语音通话,通过捕捉的情绪信号,应用在用户经营、坐席指导中的探索和尝试,也一直在进行,用户的情绪表征可以帮助奇富科技更全面的理解用户,服务用户。

“随着ChatGPT在公司内的实验和落地,我们已经极大提升了对于用户在文本上的理解能力,更好的识别和挖掘音频中的信息表征已经从幕后走向台前,成为进一步提升用户理解能力的关键手段。公司在音频技术上,一直坚持投入、坚持自研,这也是我们不断进步的基石,未来我们会有更多的技术成果分享给业界。”奇富科技首席算法科学家费浩峻表示。

据介绍,奇富科技在评价情绪过程中引入了三个主要创新点:

第一,对于多模态细粒度的表征,提出multilevel transformer模型,探索不同的方式来结合音素表征和单词表征。特别地,该方法并不需要借助外部信息来进行语音和文字的对齐,而是借鉴transformer TTS的框架,把文本和语音信息,有效地结合在一起。

31

第二,为了充分发挥预训练模型的优势,奇富科技提出multi-granularity模型,直接把multilevel transformer模型和Bert有效结合,使细粒度信息和全局信息得到了充分的融合,模型效果有了更进一步的提升。

32

第三,奇富科技的multilevel transformer模型在公开数据集上取得了SOTA效果,multi-granularity模型在此基础上,又有了更大幅度的提升。

33
34

在实际业务上,奇富科技利用论文中的方法,通过自主研发的实时感知情绪模型,对潜在投诉进行及时预警和安抚,结果表明投诉率低于对照组4%。

编辑:刘昕茹

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK