7

《中文信息学报》新刊概览∣ 2021年第3期(35卷第3期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484876&%3Bidx=1&%3Bsn=14dd7f25a0f6dc45ddb83f6bbb00cb98
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2021年第3期(35卷第3期)

Original JCIP 中文信息学报 2021-04-21 09:16
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

综述

✦ 图神经网络在自然语言处理中的应用

作  者:陈雨龙,付乾坤,张 岳

摘  要:近几年,神经网络因其强大的表征能力逐渐取代传统的机器学习成为自然语言处理任务的基本模型。然而经典的神经网络模型只能处理欧氏空间中的数据,自然语言处理领域中,篇章结构,句法甚至句子本身都以图数据的形式存在。因此,图神经网络引起学界广泛关注,并在自然语言处理的多个领域成功应用。该文对图神经网络在自然语言处理领域中的应用进行了系统性的综述,首先介绍了图神经网络的核心思想并梳理了三种经典方法:图循环网络,图卷积网络和图注意力网络;然后在具体任务中,详细描述了如何根据任务特性构建合适的图结构以及如何合理运用图结构表示模型。该文认为,相比专注于探索图神经网络的不同结构,探索如何以图的方式建模不同任务中的关键信息,是图神经网络未来工作中更具普遍性和学术价值的一个研究方向。

关键词:综述;自然语言处理;图神经网络

引用格式:陈雨龙,付乾坤,张岳. 图神经网络在自然语言处理中的应用[J]. 中文信息学报, 2021, 35(3): 1-23.

CHEN Yulong, FU Qiankun, ZHANG Yue. Applications of Graph Neural Network for Natural Language Processing[J]. Journal of Chinese Information Processing, 2021, 35(3): 1-23.

全文链接:点击下载

✦ 基于生成模型的闲聊机器人自动评价方法综述

作  者:张 璐,李卓桓,殷绪成,晋赞霞

摘  要:近年来,随着人工智能技术的发展,更多数据被利用,数据驱动的端到端闲聊机器人技术得到快速发展,受到了学术界和工业界的广泛关注。但是对于闲聊机器人的评价,现在没有标准的自动评价方法,而自动评价方法对于闲聊机器人对话效果的评估及闲聊机器人的快速迭代是十分重要的。该文综述了基于生成模型的闲聊机器人的自动评价方法。首先介绍了自动评价方法的研究背景及研究现状,然后介绍了对闲聊机器人的基本能力—生成合理的回复进行评价的自动评价方法,并指出了每类方法的优缺点及进一步发展的方向,其次对评价闲聊机器人的扩展能力的自动评价方法进行了介绍,扩展能力包括生成多样的回复、对话具有特定的个性、对话具有情感和对话主题具有深度和广度等。随后阐述了评价闲聊机器人综合能力的评价方法,并讨论了发展综合自动评价方法的方向,同时还介绍了如何评价自动评价方法。最后进行了分析与总结,指出研究自动评价方法的困难与挑战,并对未来发展进行了展望。

关键词:生成模型;闲聊机器人;自动评价方法

引用格式:张璐,李卓桓,殷绪成,晋赞霞. 基于生成模型的闲聊机器人自动评价方法综述[J]. 中文信息学报, 2021, 35(3): 24-42.
ZHANG Lu, LI Zhuohuan, YIN Xucheng, JIN Zanxia. A Survey of Automatic Evaluation of Chatbots Based on Generative Models[J]. Journal of Chinese Information Processing,2021, 35(3): 24-42.

全文链接:点击下载

机器翻译

✦ 融合EMD最小化双语词典的汉—越无监督神经机器翻译

作  者:薛明亚,余正涛,文永华,于志强

摘  要:神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳。汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD(Earth Mover's Distance)最小化双语词典的汉—越无监督神经机器翻译方法,首先分别训练汉语和越南语的单语词嵌入,通过最小化它们的EMD训练得到汉越双语词典,然后再将该词典作为种子词典训练汉越双语词嵌入,最后利用共享编码器的无监督机器翻译模型构建汉—越无监督神经机器翻译方法。实验表明,该方法能有效提升汉越无监督神经机器翻译的性能。

关键词:无监督学习;EMD;汉语—越南语;神经机器翻译

引用格式:薛明亚,余正涛,文永华,于志强. 融合EMD最小化双语词典的汉—越无监督神经机器翻译[J]. 中文信息学报, 2021, 35(3): 43-50.

XUE Mingya, YU Zhengtao, WEN Yonghua, YU Zhiqiang. Chinese-Vietnamese Unsupervised Neural Machine Translation Based on EMD Minimal Bilingual Dictionary[J]. Journal of Chinese Information Processing, 2021, 35(3): 43-50.

全文链接:点击下载

✦ 基于神经机器翻译编码器的语义学习分析

作  者:徐 佳,叶 娜,张桂平,黎天宇

摘  要:传统上神经机器翻译依赖于大规模双语平行语料,而无监督神经机器翻译的方法避免了神经机器翻译对大量双语平行语料的过度依赖,更适合低资源语言或领域。无监督神经机器翻译训练时会产生伪平行数据,这些伪平行数据质量对机器翻译最终质量起到了决定性的作用。因此,该文提出利用质量估计的无监督神经机器翻译模型,通过在反向翻译的过程中使用质量估计对生成的伪平行数据评分,再选择评分(HTER)较高的平行数据训练神经网络。利用质量估计的方法可以控制反向翻译生成的伪平行数据的质量,为对抗生成网络提供了更丰富的训练样本,使对抗生成网络训练得更加充分。与基线模型相比,该模型在WMT 2019德语—英语和捷克语—英语新闻单语语料上BLEU值分别提升了0.79和0.55。

关键词:无监督神经机器翻译;反向翻译;质量估计

引用格式:徐佳,叶娜,张桂平,黎天宇. 利用质量估计改进无监督神经机器翻译[J]. 中文信息学报, 2021, 35(3): 51-59.

XU Jia, YE Na, ZHANG Guiping, LI Tianyu. Improving Unsupervised Neural Machine Translation with Quality Estimation[J]. Journal of Chinese Information Processing, 2021, 35(3):51-59.

全文链接:点击下载

✦ 基于神经机器翻译编码器的语义学习分析

作  者:徐东钦,李军辉,贡正仙

摘  要:神经机器翻译凭借其良好性能成为目前机器翻译的主流方法,然而,神经机器翻译编码器能否学习到充分的语义信息一直是学术上亟待探讨的问题。为了探讨该问题,该文通过利用抽象语义表示(abstract meaning representation,AMR)所包含的语义特征,分别从单词级别、句子级别两种不同的角度去分析神经机器翻译编码器究竟在多大程度上能够捕获到语义信息,并尝试利用额外的语义信息提高机器翻译性能。实验表明:首先神经机器翻译编码器能够学习到较好的单词级和句子级语义信息;其次,当神经机器翻译的训练集规模较小时,利用额外语义信息能够提高翻译性能。

关键词:神经机器翻译;编码器;AMR

引用格式:徐东钦,李军辉,贡正仙. 基于神经机器翻译编码器的语义学习分析[J]. 中文信息学报, 2021, 35(3): 60-68,77.

XU Dongqin, LIJunhui, GONG Zhengxian. Does Encoder of Neural Machine Translation Learn Semantic Information?[J]. Journal of Chinese Information Processing, 2021, 35(3):60-68,77.

全文链接:点击下载

信息抽取与文本挖掘

✦ 基于信息增强BERT的关系分类

作  者:万 莹,孙连英,赵 平,王金锋,涂 帅

要:关系分类是自然语言处理领域中重要的语义处理任务,随着机器学习技术的发展,预训练模型BERT在多项自然语言处理任务中取得了大量研究成果,但在关系分类领域尚有待探索。该文针对关系分类的问题特点,提出一种基于实体与实体上下文信息增强BERT的关系分类方法(EC_BERT),该方法利用BERT获取句子特征表示向量,并结合两个目标实体以及实体上下文语句信息,送入简单神经网络进行关系分类。此外,该文还对BERT的改进模型RoBERTa、DistilBERT进行了实验,发现BERT对于关系分类能力更为突出。实验结果显示,该方法在SemEval-2010任务8数据集和KBP-37数据集上Macro-F1值最高取得了89.69%和65.92%的结果,与以往方法相比,其在关系分类任务上表现出较好的性能。

关键词:关系分类;BERT;自然语言处理;神经网络

引用格式:万莹,孙连英,赵平,王金锋,涂帅. 基于信息增强BERT的关系分类[J].中文信息学报, 2021, 35(3): 69-77. 

WAN Ying, SUN Lianying, ZHAO Ping, WANG Jinfeng, TU Shuai. Relation Classification Based on Information Enhanced BERT[J]. Journal of Chinese Information Processing, 2021, 35(3): 69-77.

全文链接:点击下载 

✦ 基于文本结构和图卷积网络的生成式摘要

作  者:魏文杰,王红玲,王中卿

要:目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器。该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差。从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用。为了使编码器能够获取文本的结构信息,该文提出了基于文本结构信息的编码器,其使用了图卷积神经网络对文本进行编码。该文还提出了一种规范融合层,旨在使模型在获取文本结构信息的同时,也能关注到文本的序列化信息。另外,该文还使用了多头注意力机制的解码器,以提高生成摘要的质量。实验结果表明,在加入该文所提出的文本结构信息编码器、规范融合层后,系统性能在ROUGE评价指标上有显著的提高。

关键词:生成式文摘;文本结构;图卷积神经网络

引用格式:魏文杰,王红玲,王中卿. 基于文本结构和图卷积网络的生成式摘要[J]. 中文信息学报, 2021, 35(3): 78-87.

WEI Wenjie, WANG Hongling, WANG Zhongqing. Abstractive Summarization Using Text Structure and Graph Convolution Network[J]. Journal of Chinese Information Processing, 2021, 35(3):78-87.

全文链接:点击下载 

✦ 基于BERT的手术名称标准化重排序算法

作  者:陈漠沙,仇 伟,谭传奇

要:临床术语标准化是医学文本信息抽取中不可或缺的一项任务。临床上对于同一种诊断、手术、药品、检查、化验、症状等,往往会有多种不同的写法,术语标准化(归一)要解决的问题就是为临床上各种不同的说法找到对应的标准名称。在检索技术生成候选答案的基础上,该文提出了基于BERT(bidirectional encoder representation from transformers) 对候选答案进行重排序的方法。实验表明,该方法在CHIP2019手术名称标准化数据集上单模型准确率达到89.1%、融合模型准确率达到92.8%,基本满足实际应用标准。同时该方法具备较好的泛化能力,可应用到其他医学种类术语的标准化任务上。

关键词:手术名称标准化;Lucene检索;BERT

引用格式:陈漠沙,仇伟,谭传奇. 基于BERT的手术名称标准化重排序算法[J]. 中文信息学报, 2021, 35(3): 88-93.

CHEN Mosha, QIU Wei,TAN Chuanqi. A BERT Based Reordering Method for Clinical Operation Term Normalization[J]. Journal of Chinese Information Processing, 2021, 35(3): 88-93.

全文链接:点击下载 

✦ CHIP2019评测任务1概述:临床术语标准化任务

作  者:黄源航,焦晓康,汤步洲,陈清财,闫 峻

要:第五届中国健康信息处理会议(China Conference on Health Information Processing, CHIP2019)组织了中文临床医疗信息处理方面的三个评测任务,其中任务1为临床术语标准化任务。该任务的主要目标是对中文电子病历中挖掘出的真实手术实体进行语义标准化。评测数据集中所有手术原词均来自于真实医疗数据,并以《ICD9-2017协和临床版》手术词表为标准进行了标注。共有56支队伍报名参加了评测,最终有20支队伍提交了47组结果。该评测以准确率作为最终评估标准,提交结果中最高准确率达到94.83%。

关键词:中国健康信息处理会议;临床术语标准化;自然语言处理

引用格式:黄源航,焦晓康,汤步洲,陈清财,闫峻,. CHIP2019评测任务1概述:临床术语标准化任务[J]. 中文信息学报, 2021, 35(3): 94-99.

HUANG Yuanhang, JIAO Xiaokang, TANG Buzhou, CHEN Qingcai, YAN Jun,. Overview of the CHIP2019 Shared Task Track1: Normalization of Chinese Clinical Terminology[J]. Journal of Chinese Information Processing, 2021, 35(3): 94-99.

全文链接:点击下载 

✦ 基于强化学习的医疗问题诉求分类

作  者:吴 昊,黄德根,林晓惠

要:医疗问题诉求分类属于文本分类,是自然语言处理中的基础任务。该文提出一种基于强化学习的方法对医疗问题诉求进行分类。首先,通过强化学习自动识别出医疗问题中的关键词,并且对医疗问题中的关键词和非关键词赋予不同的值构成一个向量;其次,利用该向量作为attention机制的权重向量,对Bi-LSTM模型生成的隐含层状态序列加权求和得到问题表示;最后通过Softmax分类器对问题表示进行分类。实验结果表明,该方法比基于Bi-LSTM模型的分类结果准确率提高1.49%。

关键词:强化学习;Bi-LSTM;注意力机制

引用格式:吴昊,黄德根,林晓惠. 基于强化学习的医疗问题诉求分类[J]. 中文信息学报, 2021, 35(3): 100-106.

WU Hao, HUANG Degen,LIN Xiaohui. Medical Question Appeal Classification Based on Reinforcement Learning[J]. Journal of Chinese Information Processing, 2021, 35(3): 100-106.

全文链接:点击下载 

✦ 面向中文新闻文本分类的融合网络模型

作  者:胡玉兰,赵青杉,陈 莉,牛永洁

要:针对神经网络文本分类模型随着层数的加深,在训练过程中发生梯度爆炸或消失以及学习到的词在文本中的语义信息不够全面的问题,该文提出了一种面向中文新闻文本分类的融合网络模型。该模型首先采用密集连接的双向门控循环神经网络学习文本的深层语义表示,然后将前一层学到的文本表示通过最大池化层降低特征词向量维度,同时保留其主要特征,并采用自注意力机制获取文本中更关键的特征信息,最后将所学习到的文本表示拼接后通过分类器对文本进行分类。实验结果表明:所提出的融合模型在中文新闻长文本分类数据集NLPCC2014上进行实验,其精度、召回率、F1-score指标均优于最新模型AC-BiLSTM。

关键词:文本分类;密集连接;双向门控循环神经网络;最大池化;自注意力机制

引用格式:胡玉兰,赵青杉,陈莉,牛永洁. 面向中文新闻文本分类的融合网络模型[J]. 中文信息学报, 2021, 35(3): 107-114.

HU Yulan, ZHAO Qingshan, CHEN Li, NIU Yongjie. A Fusion Network for Chinese News Text Classification[J]. Journal of Chinese Information Processing, 2021, 35(3):107-114.

全文链接:点击下载

情感分析与社会计算

✦基于ELMo和Transformer混合模型的情感分析

作  者:赵亚欧,张家重,李贻斌,王玉奎

要:针对循环神经网络模型无法直接提取句子的双向语义特征,以及传统的词嵌入方法无法有效表示一词多义的问题,该文提出了基于ELMo和Transformer的混合模型用于情感分类。首先,该模型利用ELMo模型生成词向量。基于双向LSTM模型,ELMo能够在词向量中进一步融入词语所在句子的上下文特征,并能针对多义词的不同语义生成不同的语义向量。然后,将得到的ELMo词向量输入Transformer模型进行情感分类。为了实现分类,该文修改了Transformer的Encoder和Decoder结构。ELMo和Transformer的混合模型是循环神经网络和自注意力的组合,两种结构可从不同侧面提取句子的语义特征,得到的语义信息更加全面、丰富。实验结果表明,该方法与当前主流方法相比,在NLPCC2014 Task2数据集上分类正确率提高了3.52%;在酒店评论的4个子数据集上分类正确率分别提高了0.7%、2%、1.98%和1.36%。

关键词情感分析;ELMo模型;Transformer模型;多头自注意力机制;自然语言处理

引用格式:赵亚欧,张家重,李贻斌,王玉奎. 基于ELMo和Transformer混合模型的情感分析[J]. 中文信息学报, 2021, 35(3): 115-124.

ZHAO Yaou, ZHANG Jiachong, LI Yibin, WANG Yukui. Sentiment Analysis Based on Hybrid Model of ELMo and Transformer[J]. Journal of Chinese Information Processing, 2021, 35(3):115-124.

全文链接:点击下载

✦客户来电意图识别研究

作  者:赵 宁,徐俊利,徐洋航,薛 超,谭乃瑜

要:捕捉客户来电意图信息,开展客户来电意图识别研究具有重要意义。现有的客户来电意图识别大都是采用人工分析方法,尚没有采用机器学习、深度学习模型识别客户来电意图的研究。为降低人工分析代价,提高客户来电意图识别结果,该文分别从基于传统机器学习模型、基于单/多深度学习模型、基于BERT和深度学习模型组合三个方面,进行客户来电意图识别研究。在移动客服领域客户来电数据上的实验结果显示,F1值最高达到86.30%,说明该文提出的客户来电意图识别方法是有效的,能够有效帮助移动客服人员进行客户来电意图识别分析。

关键词意图识别;机器学习;深度学习, BERT

引用格式:赵宁,徐俊利,徐洋航,薛超,谭乃瑜. 客户来电意图识别研究[J]. 中文信息学报, 2021, 35(3): 125-133.

ZHAO Ning, XU Junli,XU Yanghang, XUE Chao, TAN Naiyu. Intention Detection of Customer's Call[J]. Journal of Chinese Information Processing, 2021, 35(3): 125-133.

全文链接:点击下载

✦基于用户与产品信息和图卷积网络的情感分类研究

作  者:王启发,周 敏,王中卿,李寿山,周国栋

要:在评论情感分析的研究中,和评论相关的用户与产品信息对于提高情感分类的准确率有很大的帮助。为了能够有效地利用产品和用户信息,并构建产品和用户信息与评论之间的关联,该文提出一种基于图网络的模型,将产品与用户信息和评论之间的关系构建为一个图,并基于图卷积网络模型学习产品与用户信息对评论的影响,从而提升评论情感分类的准确率。在Yelp2013数据集上进行实验,实验结果表明,该模型能有效地提高评论的情感分类准确率。

关键词图卷积;神经网络;情感分类

引用格式:王启发,周敏,王中卿,李寿山,周国栋. 基于用户与产品信息和图卷积网络的情感分类研究[J]. 中文信息学报, 2021, 35(3): 134-142.

WANG Qifa, ZHOU Min,WANG Zhongqing, LI Shoushan, ZHOU Guodong. Graph Convolution Network for Sentiment Classification via User and Product Information[J]. Journal of Chinese Information Processing, 2021, 35(3): 134-142.

全文链接:点击下载

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK