《中文信息学报》新刊概览∣ 2021年第6期（35卷第6期）

Original JCIP 中文信息学报 2021-07-21 08:06

↑点开查看清晰大图

综述

✦ 自然语言处理评测中的问题与对策

作者：董青秀，穗志方，詹卫东，常宝宝

摘要：自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来，新的评测数据集和评测任务不断被提出，与此同时，现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发，分类综述了主流自然语言处理评测的任务和特点，进而总结归纳了自然语言处理评测中的问题及其成因。最后，该文参照人类语言能力评测规范，提出类人机器语言能力评测的概念，并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想，并对评测技术的未来发展进行了展望。

关键词：自然语言处理评测；数据集偏差；评测指标

引用格式：董青秀,穗志方,詹卫东,常宝宝. 自然语言处理评测中的问题与对策[J]. 中文信息学报, 2021, 35(6): 1-15.
DONG Qingxiu, SUI Zhifang, ZHAN Weidong, CHANG Baobao. Problems and Countermeasures in Natural Language Processing Evaluation[J].Journal of Chinese Information Processing, 2021, 35(6): 1-15.

全文链接：点击下载

✦ 微博中转发行为的预测技术综述

作者：曹世鸿，叶青，李保滨，朱廷劭

摘要：在线社交网络中，微博平台的便捷性和开放性，给信息的传播和爆发提供了很大的便利。转发是微博平台上用户的重要行为，也是信息传播的关键机制。基于转发行为，分析一条推文是否被用户转发或者一段时间后的转发量，可以使我们更好地了解信息的传播特性，探索用户的行为与兴趣，以此推进信息推荐、预防突发事件和舆情监控等应用发展。该文较为系统地梳理了预测微博是否被转发及某段时间后的转发量这两方面的相关研究工作，着重阐述了基于用户、社交和内容特征的预测模型建立的过程并评价其预测性能，分析了微博转发行为的相关预测技术面临的挑战，展望了未来的可能研究方向。

关键词：微博；转发行为；微博热点话题；信息传播

引用格式：曹世鸿,叶青,李保滨,朱廷劭. 微博中转发行为的预测技术综述[J].中文信息学报, 2021, 35(6): 16-29.
CAO Shihong, YE Qing, LI Baobin, ZHU Tingshao. Prediction of Retweeting Behavior in Microblog: A Survey[J].Journal of Chinese Information Processing,2021, 35(6): 16-29.

全文链接：点击下载

语言资源建设

✦ 多目标情感分类中文数据集构建及分析研究

作者：刘鹏远，田永胜，杜成玉，邱立坤

摘要：目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标，多个目标的情感可能一致，也可能不一致。但在已有针对目标级情感分类的评测数据集中：①大多数是一个句子一个目标；②在少数有多个目标的句子中，多个目标情感倾向分布并不均衡，多个目标情感一致的句子占较大比例。数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间。针对以上问题，该文构建了一个针对多目标情感分类的中文数据集，人工标注了6 339个评价目标，共2 071条数据。该数据集具备以下特点：①评价目标个数分布平衡；②情感正负极性分布平衡；③多目标情感倾向分布平衡。随后，该文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析。结果表明，现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类，尤其是目标的情感倾向为中性时。因此多目标情感分类任务具有一定的难度与挑战性。

关键词：目标级情感分类；中文数据集；多目标

引用格式：刘鹏远,田永胜,杜成玉,邱立坤. 多目标情感分类中文数据集构建及分析研究[J]. 中文信息学报, 2021, 35(6): 30-38.
LIU Pengyuan, TIAN Yongsheng, DU Chengyu, QIU Likun. Construction and Analysisof Chinese Multi-Target Sentiment Classification Dataset[J].Journal of Chinese Information Processing, 2021, 35(6): 30-38.

全文链接：点击下载

机器翻译

✦ 基于重解码的神经机器翻译方法研究

作者：宗勤勤，李茂西

摘要：基于Transformer的序列转换模型是当前性能最优的机器翻译模型之一。该模型在生成机器译文时，通常从左到右逐个生成目标词，这使得当前位置词的生成不能利用译文中该词之后未生成词的信息，导致机器译文解码不充分从而降低译文质量。为了缓解上述问题，该文提出了基于重解码的神经机器翻译模型，该模型将已生成的机器译文作为目标语言近似上下文环境，对译文中每个词依次进行重解码，重解码时Transformer 解码器中遮挡多头注意力仅遮挡已生成译文中的当前位置词，因此，重生成的每个词都能充分利用目标语言的上下文信息。在多个WMT机器翻译评测任务测试集上的实验结果表明：使用基于重解码的神经机器翻译方法显著提高了机器译文质量。

关键词：神经机器翻译；编码器—解码器模型；重解码；遮挡多头注意力；Transformer

引用格式：宗勤勤,李茂西. 基于重解码的神经机器翻译方法研究[J]. 中文信息学报, 2021, 35(6): 39-46.
ZONG Qinqin, LI Maoxi. Research on Neural Machine Translation Based on Re-decoding[J].Journal of Chinese Information Processing, 2021, 35(6): 39-46.

全文链接：点击下载

✦ 译文质量估计中基于Transformer的联合神经网络模型

作者：陈聪，李茂西，罗琪

摘要：译文质量估计作为机器翻译中的一项重要任务，在机器翻译的发展和应用中发挥着重要的作用。该文提出了一种简单有效的基于Transformer的联合模型用于译文质量估计。该模型由Transformer瓶颈层和双向长短时记忆网络组成，Transformer瓶颈层参数利用双语平行语料进行初步优化，模型所有参数利用译文质量估计语料进行联合优化和微调。测试时，将待评估的机器译文使用强制学习和特殊遮挡与源语言句子一起输入联合神经网络模型以预测译文的质量。在CWMT18译文质量估计评测任务数据集上的实验结果表明，该模型显著优于在相同规模训练语料下的对比模型，和在超大规模双语语料下的最优对比模型性能相当。

关键词：机器翻译，译文质量估计，Transformer，联合训练

引用格式：陈聪,李茂西,罗琪. 译文质量估计中基于Transformer的联合神经网络模型[J]. 中文信息学报, 2021, 35(6): 47-54.
CHEN Cong, LI Maoxi, LUO Qi. A Transformer-based Unified Neural Network for Quality Estimation of Machine Translation[J].Journal of Chinese Information Processing, 2021, 35(6): 47-54.

全文链接：点击下载

信息抽取与文本挖掘

✦一种融合注意力机制的自适应实体识别方法

作者：陈启丽，黄冠和，王元卓，张琨，杜则尧

摘要：了解决命名实体识别任务在面向新兴应用领域时,需要面对烦琐的模型重构过程和语料严重不足的问题，该文提出了一种基于注意力机制的领域自适应命名实体识别方法。首先，在通用领域数据集上构建了基于BERT（bidirectional encoder representations from transformers）预训练语言模型的双向长短时记忆条件随机场（BERT-BiLSTM-CRF）命名实体识别模型；接着，在古代汉语语料集上对原有模型进行微调的同时插入了基于注意力机制的自适应神经网络层；最后，在目标域内应用迁移学习方法训练模型进行对比实验。实验结果表明，自适应迁移学习方法减少了对目标域语料的依赖。该文提出的基于注意力机制的自适应神经网络模型相比通用域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了4.31%，相比古代汉语域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了2.46%，实验表明，该文方法能够提升源域模型迁移学习的效果，并完成跨领域命名实体识别模型的构建。

关键词：迁移学习；命名实体识别；古代汉语；BERT模型

引用格式：陈启丽,黄冠和,王元卓,张琨,杜则尧. 一种融合注意力机制的自适应实体识别方法[J]. 中文信息学报, 2021, 35(6): 55-62,73.
CHEN Qili, HUANG Guanhe, WANG Yuanzhuo, ZHANG Kun, DU Zeyao. An Adaptive Entity Recognition Method with Attention Mechanism[J].Journal of Chinese Information Processing, 2021, 35(6): 55-62,73.

全文链接：点击下载

✦基于依存关系的命名实体识别

作者：张雪松，郭瑞强，黄德根

摘要：现有的命名实体识别方法主要是将句子看作一个序列进行处理，忽略了句子中潜在的句法信息，存在长距离依赖问题。为此，该文提出一种基于依存关系的命名实体识别模型，通过在输入数据中增加依存树信息，改变双向长短时记忆网络的层间传播方式，以获得单词在依存树中的子节点和父节点信息，并通过注意力机制动态选择两者的特征，最后将特征输入到CRF层实现命名实体标注。实验表明，该方法较BiLSTM-CRF模型在性能上得到了提高，且在长实体识别上优势明显。在OntoNotes 5.0 English和OntoNotes 5.0 Chinese以及SemEval-2010 Task 1 Spanish上的F1值分别达到了88.94%、77.42%、84.38%。

关键词：命名实体识别；依存树；有向图；注意力机制

引用格式：张雪松,郭瑞强,黄德根. 基于依存关系的命名实体识别[J]. 中文信息学报, 2021, 35(6): 63-73.
ZHANG Xuesong, GUO Ruiqiang, HUANG Degen. Named Entity Recognition Based on Dependency[J].Journal of Chinese Information Processing, 2021, 35(6): 63-73.

全文链接：点击下载

✦BSLRel：基于二元序列标注的级联关系三元组抽取模型

作者：张龙辉，尹淑娟，任飞亮，苏剑林，明瑞成，白宇佳

摘要：关系三元组抽取是构建大规模知识图谱的基础，近年来受到学术界和工业界的广泛关注。为了提高模型对重叠关系三元组和多槽值关系三元组的抽取能力，该文提出了一个基于神经网络的端到端的关系三元组抽取模型BSLRel。其主要特点是将关系三元组抽取任务转化为级联的二元序列标注任务，并使用多信息融合结构Conditional Layer Normalization进行信息融合。实验结果显示，BSLRel模型对重叠关系三元组和多槽值关系三元组具有较强的抽取能力。基于BSLRel模型，该团队参加了“2020语言与智能技术竞赛”中的关系三元组抽取任务，并取得了第五名的成绩。

关键词： BSLRel模型；重叠关系三元组抽取；多槽值关系三元组抽取

引用格式：张龙辉,尹淑娟,任飞亮,苏剑林,明瑞成,白宇佳. BSLRel:基于二元序列标注的级联关系三元组抽取模型[J]. 中文信息学报, 2021, 35(6): 74-84.
ZHANG Longhui, YIN Shujuan, REN Feiliang, SU Jianlin, MING Ruicheng, BAI Yujia.BSLRel: A Binary Sequence Labeling Based Cascading Relation Triple Extraction Model[J].Journal of Chinese Information Processing, 2021, 35(6): 74-84.

全文链接：点击下载

情感分析与社会计算

✦ 基于ECPA神经网络的情绪原因识别方法

作者：刁宇峰，杨亮，林鸿飞，樊小超，吴迪，任璐，张冬瑜，许侃

摘要：情绪原因识别是文本情绪分析领域中的一个前沿研究方向。传统情绪原因识别方法需要进行规则制定、抽取特征，而该文从情绪原因的语言特点出发，结合Bi-LSTM模型和注意力机制，提出一种基于情绪上下文位置注意力神经网络的情绪原因识别方法(ECPA)。该方法考虑了情绪词和情绪类别中的情绪信息，学习了Bi-LSTM模型建模后的上下文语义信息，引入了基于位置信息的注意力机制模型，进而构建情绪原因识别模型。实验结果证明,该方法在情绪原因识别任务中的有效性，并取得了目前最优的性能，同时对情绪归因方法具有一定的指导作用。

关键词：情绪原因识别；Bi-LSTM；注意力机制；情绪信息；位置信息

引用格式：刁宇峰,杨亮,林鸿飞,樊小超,吴迪,任璐,张冬瑜,许侃. 基于ECPA神经网络的情绪原因识别方法[J]. 中文信息学报, 2021, 35(6): 85-92.
DIAO Yufeng, YANG Liang, LIN Hongfei, FAN Xiaochao, WU Di, REN Lu, ZHANG Dongyu, XU Kan. Emotion Cause Recognition Based on Emotion Context Position Attention (ECPA) Neural Network[J].Journal of Chinese Information Processing,2021, 35(6): 85-92.

全文链接：点击下载

✦ 基于领域特有情感词注意力模型的跨领域属性情感分析

作者：赵光耀，吕成国，付国宏，刘宗林，梁春丰，刘涛

摘要：虽然近年来情感分析相关研究取得很大进展，但跨领域属性情感分析仍是一个挑战。现有的方法主要关注源领域和目标领域的共有信息，忽略了目标领域的特有信息。此外，情感词作为句子中的重要信息，不仅能反映属性的情感极性，而且可以被划分为共有情感词和特有情感词。针对目标领域的特有信息和情感词，该文提出领域特有情感词注意力模型(DSSW-ATT)。该模型设立两个独立的子空间，分别使用注意力机制提取共有情感词特征和特有情感词特征，并建立相应的共有特征分类器和特有特征分类器，同时使用协同训练方法融合这两种特征。该文还构建了酒店领域(源领域)和手机领域(目标领域)的属性级用户评论数据集。在该数据集上的实验结果表明，该方法明显优于基线方法。

关键词：情感分析；半监督学习；注意力机制

引用格式：赵光耀,吕成国,付国宏,刘宗林,梁春丰,刘涛. 基于领域特有情感词注意力模型的跨领域属性情感分析[J]. 中文信息学报, 2021, 35(6): 93-102.
ZHAO Guangyao, LV Chengguo, FU Guohong, LIU Zonglin, LIANG Chunfeng, LIU Tao.Domain Specific Sentiment Words Based Attention Model for Cross-Domain Attribute-Oriented Sentiment Analysis[J].Journal of Chinese Information Processing, 2021, 35(6): 93-102.

全文链接：点击下载

✦ 基于多语义融合的反讽识别

作者：樊小超，杨亮，林鸿飞，刁宇峰，申晨，楚永

摘要：反讽是一种复杂的语言现象，被广泛应用于社交媒体中。如何让计算机具有识别反讽的能力，成为了自然语言处理研究领域的热门研究内容之一。该文针对反讽识别中缺乏上下文语境信息和修辞表达信息的问题，提出了基于多语义融合的反讽识别方法。该方法采用ELMo从大规模反讽文本中训练得到领域词嵌入表示，并融合基于词性和基于风格信息的语义表示，使用双向长短时记忆网络和卷积神经网络进行反讽识别。实验结果表明，所提出模型能够从多个维度提取反讽文本的潜在语义特征，在公开数据集IAC上的实验性能有显著提升。

关键词：反讽识别；多语义融合；神经网络；ELMo

引用格式：樊小超,杨亮,林鸿飞,刁宇峰,申晨,楚永贺. 基于多语义融合的反讽识别[J]. 中文信息学报, 2021, 35(6): 103-111.
FAN Xiaochao, YANG Liang, LIN Hongfei, DIAO Yufeng, SHEN Chen, CHU Yonghe.Irony Recognition Based on Multiple Semantic Fusion[J].Journal of Chinese Information Processing, 2021, 35(6): 103-111.

全文链接：点击下载

✦ 基于网络结构的增强社会群体凝聚力策略研究

作者：芶欣，李欣悦，陈武，刘佳谋

摘要：目前社会群体研究主要集中在将群体划分为多个社区。然而，在一个群体中，通常希望所有的成员团结一致，形成一个具有凝聚力的群体，这对社会群体的合作以及社会习俗形成等相关研究具有广泛意义。因此理解社会凝聚力与社会群体的动态行为之间的关系显得十分重要。该文在合作博弈的基础上，建立了社会群体动态行为模型。基于传统网络拓扑结构，该文研究了在社会群体中增强凝聚力的策略，提出了基于最大团的CPMC和CPIN算法，通过特定的干预机制，将整体划分为两层，选择边缘层节点加入核心层，同时增加节点之间的链接，从而使社会群体具有更好的社会凝聚力，并且通过实验验证了算法的有效性。

关键词：社会网络；合作博弈；网络结构

引用格式：芶欣,李欣悦,陈武,刘佳谋. 基于网络结构的增强社会群体凝聚力策略研究[J]. 中文信息学报, 2021, 35(6): 112-121.
GOU Xin, LI Xinyue, CHEN Wu, LIU Jiamou. A Strategy of Enhancing the Cohesionof Social Groups Based on Network Structure[J].Journal of Chinese Information Processing, 2021, 35(6): 112-121.

全文链接：点击下载

自然语言理解与生成

✦ 基于图神经网络和语义知识的自然语言推理任务研究

作者：刘欣瑜，刘瑞芳，石航，韩斌

摘要：自然语言推理任务的目的是推断两个句子之间的语义逻辑关系。该文通过模仿人类的推理过程构造模型，首先利用长短时记忆网络提取词的语境特征，模仿人类粗读句子的过程；然后依据外部语义知识，连接两个句子中有语义联系的词，构造一个以词为节点的语义图；接下来模仿人类比较两个句子的语义角色相似性的思维，用图卷积或图注意力神经网络聚合词在图中的空间特征；最后融合词的语境特征和语义图空间特征，进行推理分类。实验结果证明，基于图神经网络的模型能有效利用外部语义知识来提高自然语言推理的准确率。

关键词：自然语言推理；图神经网络；语义知识；双向长短时记忆网络

引用格式：刘欣瑜,刘瑞芳,石航,韩斌. 基于图神经网络和语义知识的自然语言推理任务研究[J]. 中文信息学报, 2021, 35(6): 122-130.
LIU Xinyu, LIU Ruifang, SHI Hang, HAN Bin. Natural Language Inference ModelBased on Graph Neural Network and Semantic Knowledge[J].Journal of Chinese Information Processing, 2021, 35(6): 122-130.

全文链接：点击下载

✦ CDCPP：跨领域中文标点符号预测

作者：刘鹏远，王伟康，邱立坤，杜冰洁

摘要：在中文文本特别是在社交媒体及问答领域文本中，存在非常多的标点符号错误或缺失的情况，这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本，缺少对社交媒体及问答领域文本进行标点符号预测的相关研究，也没有这些领域公开的数据集。该文首次提出跨领域中文标点符号预测任务，该任务首先利用标点符号基本规范正确的大规模新闻领域文本，建立标点符号预测模型；然后在标点符号标注不规范的社交媒体及问答领域，进行跨领域标点符号预测。随后，构建了新闻、社交媒体及问答三个领域的相应数据集。最后还实现了一个基于BERT的标点符号预测基线模型并在该数据集上进行了实验与分析。实验结果表明，直接利用新闻领域训练的模型，在社交媒体及问答领域进行标点符号预测的性能均有所下降，在问答领域下降较小，在微博领域下降较大，超过20%，说明跨领域标点符号预测任务具有一定的挑战性。

关键词：中文标点符号预测；跨领域；数据集

引用格式：刘鹏远,王伟康,邱立坤,杜冰洁. CDCPP:跨领域中文标点符号预测[J]. 中文信息学报, 2021, 35(6): 131-140.
LIU Pengyuan, WANG Weikang, QIU Likun, DU Bingjie. CDCPP: Cross-Domain Chinese Punctuation Prediction[J].Journal of Chinese Information Processing, 2021,35(6): 131-1400.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2021年第6期（35卷第6期）

《中文信息学报》新刊概览∣ 2021年第6期（35卷第6期）

Recommend

哈工大SCIR荣获CCL 2021最佳英文论文奖

养娃的压力为何越来越大？

家

InfluxDB: Monitoring Web Server HTTP Response Codes – David Vassallo's Blog

GitHub - clibs/clib: C package manager-ish

My resolutions for 2019

D3 force layout and WebGL integration

《中文信息学报》新刊概览∣ 2021年第5期（35卷第5期）

Bucket and Object Versioning

吃货们来加群

About Joyk