《中文信息学报》新刊概览∣ 2021年第9期（35卷第9期）

中文信息学报 2021-10-12 09:00

↑点开查看清晰大图

综述

✦ 基于人工智能的司法判决预测研究与进展

作者：王婉臻，饶元，吴连伟，李薛

摘要：随着人工智能和大数据处理技术的发展，人工智能技术在辅助法官办案、辅助诉讼、辅助司法管理等诸多方面起着重大作用，推进了智慧法院的发展，并受到学术界及工业界的广泛关注。该文在针对人工智能技术在辅助司法办案相关模型分析的基础上，归纳并提出了目前司法判决预测领域存在的多特征的罪名分类预测、多标签的罪名分类预测、司法判决预测中多个子任务处理、司法判决预测中的不平衡数据处理、判决预测结果的可解释性以及将已有的刑事案件预测算法迁移学习推广到不同类别案件等6项关键性问题与挑战。同时，该文针对这些关键问题与技术挑战进行了理论探讨、技术分析以及当前工作进展与趋势分析，总结了司法判决预测领域目前使用到的一些数据集及其对应的评价指标，为深入研究司法判决预测提供新的研究线索与方向。

关键词：自动判决；司法判决预测；人工智能；司法

引用格式：王婉臻,饶元,吴连伟,李薛. 基于人工智能的司法判决预测研究与进展[J]. 中文信息学报, 2021, 35(9): 1-14.

WANG Wanzhen, RAO Yuan, WU Lianwei, LI Xue. Progress of Judicial Judgment Prediction Based on Artificial Intelligence[J]. Journal of Chinese Information Processing, 2021, 35(9): 1-14.

全文链接：点击下载

✦ 基于语言模型的预训练技术研究综述

作者：岳增营，叶霞，刘睿珩

摘要：预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功，进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类，并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。

关键词：自然语言处理；预训练；语言模型

引用格式：岳增营,叶霞,刘睿珩. 基于语言模型的预训练技术研究综述[J]. 中文信息学报, 2021, 35(9): 15-29.

YUE Zengying, YE Xia, LIU Ruiheng. A Survey of Language Model Based Pre-training Technology[J]. Journal of Chinese Information Processing, 2021, 35(9): 15-29.

全文链接：点击下载

✦ 基于深度学习的命名实体识别综述

作者：邓依依，邬昌兴，魏永丰，万仲保，黄兆华

摘要：命名实体识别是自然语言处理的基础任务之一，目的是从非结构化的文本中识别出所需的实体及类型，其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年，随着深度学习在自然语言处理领域的广泛应用，各种基于深度学习的命名实体识别方法均取得了较好的效果，其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法：第一，从输入层、编码层和解码层出发，介绍命名实体识别的一般框架；第二，分析汉语命名实体识别的特点，着重介绍各种融合字词信息的模型；第三，介绍低资源的命名实体识别，主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后，总结相关工作，并提出未来可能的研究方向。

关键词：命名实体识别；汉语命名实体识别；低资源命名实体识别；深度学习

引用格式：邓依依,邬昌兴,魏永丰,万仲保,黄兆华. 基于深度学习的命名实体识别综述[J]. 中文信息学报, 2021, 35(9): 30-45.
DENG Yiyi, WU Changxing, WEI Yongfeng, WAN Zhongbao, HUANG Zhaohua. A Survey on Named Entity Recognition Based on Deep Learning[J]. Journal of Chinese Information Processing, 2021, 35(9): 30-4.

全文链接：点击下载

机器翻译

✦利用依存句法关系改进神经译文质量估计

作者：叶娜，黎天宇，蔡东风，徐佳

摘要：译文质量估计技术是指在无参考译文的情况下对机器译文进行评价的方法。近年来，深度学习技术取得了重大突破，融合深度学习技术的神经译文质量估计方法逐渐取代了传统的译文质量估计方法成为主流。神经译文质量估计模型具有一定的隐式学习源语言句法结构的能力，但无法从语言学的角度有效地捕捉句子内部的句法关系。该文提出了一种将源语句的句法关系信息显式融入神经译文质量估计的方法，在源语言的依存句法关系和译文质量之间建立联系。实验结果表明，该文提出的句法关系特征能够提高译文质量估计模型的准确性。同时还提取了多个层面的语言学特征，在不同的网络模型中进行融合，并从多个角度分析了不同特征所起到的效果。最后使用集成学习算法，将多个有效模型进行融合，获得了最佳性能。

关键词：译文质量估计;依存句法关系;特征融合;集成学习

引用格式：叶娜,黎天宇,蔡东风,徐佳. 利用依存句法关系改进神经译文质量估计[J]. 中文信息学报, 2021, 35(9): 46-57.
YE Na, LI Tianyu, CAI Dongfeng, XU Jia. Dependency Relationship Enhanced Neural Machine Translation Quality Estimation[J]. Journal of Chinese Information Processing, 2021, 35(9): 46-57.

全文链接：点击下载

✦基于语义自适应编码的汉-越伪平行句对抽取方法

作者：郭军军，田应飞，余正涛，高盛祥，闫婉莹

摘要：伪平行句对抽取是缓解汉-越低资源机器翻译中数据稀缺问题的关键任务，同时也是提升机器翻译性能的重要手段。传统的伪平行句对抽取方法都是基于语义相似性度量，但是传统基于深度学习框架的语义表征方法没有考虑不同词语语义表征的难易程度，因此导致句子语义信息不充分，提取到的句子质量不高，噪声比较大。针对此问题，该文提出了一个双向长短期记忆网络加语义自适应编码的语义表征网络框架，根据句子中单词表征难易的不确定性，引导模型使用更深层次的计算。具体思路为：首先，对汉语和越南语句子进行编码，基于句子中单词语义表征的难易程度，自适应地进行表征，深度挖掘句子中不同单词的语义信息，实现对汉语和越南语句子的深度表征；然后，在解码端将深度表征的向量映射到统一的公共语义空间中，最大化表示句子之间的语义相似度，从而提取更高质量的汉-越伪平行句子。实验结果表明，相比于基线模型，该文提出的方法在F1得分上提升5.09%，同时将提取到的句子对用于训练机器翻译模型，实验结果表明翻译性能的显著提升。

关键词：数据稀缺；语义表征；自适应编码

引用格式：郭军军,田应飞,余正涛,高盛祥,闫婉莹. 基于语义自适应编码的汉-越伪平行句对抽取方法[J]. 中文信息学报, 2021, 35(9): 58-65.
GUO Junjun, TIAN Yingfei, YU Zhengtao, GAO Shengxiang, YAN Wanying.Pseudo-Parallel Sentence Pair Extraction for Chinese-Vietnamese Based on Semantic Adaptive Coding[J]. Journal of Chinese Information Processing, 2021,35(9): 58-65.

全文链接：点击下载

民族、跨境及周边语言信息处理

✦ 基于强化学习与自注意力机制的朝鲜语重要句子结构识别

作者：杨飞扬，崔荣一，赵亚慧，金晶，李飞雨

摘要：针对构建朝鲜语语料库的人工标注工作过于费时费力，少数民族语言难以与各家资源融合的这一问题，该文从表征学习的角度，意图构建有效的朝鲜语句子结构表示，用来提升后续自然语言处理任务的效果。我们将深度强化学习与自注意力机制相结合，提出了一种分层结构的自注意力模型（Hierarchically Structured Korean，HS-K）。模型利用强化学习中的Actor-Critic思想，将文本分类效果作为强化学习的标签反馈信息，把文本的结构划分任务转化为序列决策任务。实验结果表明，模型可以识别出接近人工标注的朝鲜语重要句子结构，对朝鲜语信息化与智能化有着良好的辅助作用。

关键词：朝鲜语自然语言处理；深度强化学习；自注意力机制；句子结构化

引用格式：杨飞扬,崔荣一,赵亚慧,金晶,李飞雨. 基于强化学习与自注意力机制的朝鲜语重要句子结构识别[J]. 中文信息学报, 2021, 35(9): 66-74.
YANG Feiyang, CUI Rongyi, ZHAO Yahui, JIN Jing, LI Feiyu. Key Syntatic Structure Recognition Based on Reinforcement Learning and Self-Attention for Korean[J].Journal of Chinese Information Processing, 2021, 35(9): 66-74.

全文链接：点击下载

✦一种基于LSTM的端到端多任务老挝语分词方法

作者：郝永彬，周兰江，刘畅

摘要：老挝语是一种无空格切分的字母语言，在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分，然后根据音节切分结果进行老挝语分词，存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法，基于多任务联合学习思想，将老挝语音节切分与分词工作进行结合，实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明，端到端的老挝语分词模型准确率达到89.02%，较以往分词模型有所提升。

关键词：老挝语分词；音节切分；多任务学习；端到端模型

引用格式：郝永彬,周兰江,刘畅. 一种基于LSTM的端到端多任务老挝语分词方法[J]. 中文信息学报, 2021, 35(9): 75-81.
HAO Yongbin, ZHOU Lanjiang, LIU Chang. An End-to-end Multi Task Method for Laotian Word Segmentation via LSTM[J]. Journal of Chinese Information Processing, 2021, 35(9): 75-81.

全文链接：点击下载

信息抽取与文本挖掘

✦ NOBEL：一种基于拓扑信息与监督学习的蛋白质复合物识别方法

作者：王晓旭，刘晓霞

摘要：蛋白质复合物对于生物学家有效了解细胞组织和功能具有重要意义，如何通过计算方法从蛋白质-蛋白质相互作用（PPI）网络中识别复合物是当前研究热点之一。然而，由于PPI网络中存在大量假阴性和假阳性噪声数据且现有已知蛋白质复合物并不完整，使得如何克服PPI网络的噪声问题，以及更好地利用已知蛋白质复合物，成为蛋白质复合物识别亟待解决的关键问题。为此，该文提出一种基于蛋白质复合物拓扑信息，利用监督学习进行蛋白质复合物识别的算法(NOBEL)。首先，NOBEL根据蛋白质的生物信息和拓扑信息构建加权PPI网络，降低了网络中的噪声问题；然后，通过加权PPI网络和未加权PPI网络提取复合物拓扑信息作为特征，并根据提取的特征训练监督学习模型，使得监督学习模型能有效学习复合物蕴含的信息；最后，将训练好的模型应用于PPI网络识别蛋白质复合物。作者在四种真实PPI网络上进行了实验，实验结果表明，NOBEL与其他七种蛋白质复合物识别算法相比，在F-measure方面分别至少提高了4.39%(Gavin)、1.32%(DIP)、2.39%(WI-PHI_core)和2.34%(WI-PHI_extend)。

关键词：蛋白质复合物；监督学习；特征提取；蛋白质相互作用网络

引用格式：王晓旭,刘晓霞. NOBEL: 一种基于拓扑信息与监督学习的蛋白质复合物识别方法[J]. 中文信息学报, 2021, 35(9): 82-93.

WANG Xiaoxu, LIU Xiaoxia. NOBEL: A Protein Complex Identification Method Basedon Topological Information and Supervised Learning[J]. Journal of Chinese Information Processing, 2021, 35(9): 82-93.

全文链接：点击下载

✦ 阅读严肃文学小说对脸部情绪识别的影响——ERP证据

作者：杨思琴，张骁晨，江铭虎

摘要：该研究采用事件相关电位(ERP)观察了被试在识别积极、中性和消极的脸部情绪时，在大脑颞枕部电极点上引发的N170效应，来探索阅读严肃文学小说是否会影响人对他人情绪的反应。阅读组被试在两次脸部情绪识别测试之间阅读严肃文学小说，而对照组没有。第二次测试相比第一次测试，N170的幅度增大，但是阅读严肃文学小说会抑制N170幅度增益，且对情绪越积极的刺激图片抑制越大。据此，阅读对他人脸部情绪的识别确有影响。研究推测阅读可能抑制大脑中的脸部情绪特异性，进而可能提高对脸部情绪的感知力。

关键词：ERP；阅读；N170；情绪识别

引用格式：杨思琴,张骁晨,江铭虎. 阅读严肃文学小说对脸部情绪识别的影响——ERP证据[J]. 中文信息学报,2021, 35(9): 94-101.

YANG Siqin, ZHANG Xiaochen, JIANG Minghu. Reading Literary Fiction Affects Face Emotion Recognition: An ERP Evidence[J]. Journal of Chinese Information Processing, 2021, 35(9): 94-101.

全文链接：点击下载

信息检索与问答系统

✦基于小样本学习的个性化Hashtag推荐

作者：曾兰君，彭敏龙，刘雅琦，许辽萨，魏忠钰，黄萱菁

摘要：近年来，Hashtag推荐任务吸引了很多研究者的关注。目前，大部分深度学习方法把这个任务看作是一个多标签分类问题，将Hashtag看作为微博的类别。但是这些方法的输出空间固定，在没有进行重新训练的情况下，不能处理训练不可见的Hashtag。然而，实际上Hashtag会随着时事热点不断快速更新。为了解决这一问题，该文提出将Hashtag推荐任务建模成小样本学习任务。同时，结合用户使用Hashtag的偏好降低推荐的复杂度。在真实的推特数据集上的实验表明，与目前最优方法相比，该模型不仅可以取得更好的推荐结果，而且表现得更为鲁棒。

关键词：Hashtag推荐；小样本学习；个性化推荐

引用格式：曾兰君,彭敏龙,刘雅琦,许辽萨,魏忠钰,黄萱菁. 基于小样本学习的个性化Hashtag推荐[J]. 中文信息学报, 2021, 35(9): 102-112.
ZENG Lanjun, PENG Minlong, LIU Yaqi, XU Liaosa, WEI Zhongyu, HUANG Xuanjing. Personalized Hashtag Recommendation Using Few-shot Learning[J]. Journal of Chinese Information Processing, 2021, 35(9): 102-112.

全文链接：点击下载

✦中文知识库问答中的路径选择

作者：吴锟，周夏冰，李正华，梁兴伟，陈文亮

摘要：路径选择是知识库问答任务的关键步骤，语义相似度常被用来计算路径对于问句的相似度得分。针对测试集中存在大量未见的关系，该文提出使用一种负例动态采样的语义相似度模型的训练方法，去丰富训练集中关系的多样性，模型性能得到显著提升。针对复杂问题候选路径数量组合爆炸问题，该文比较了两种路径剪枝方法，即基于分类的方法和基于集束搜索的方法。在包含简单问题和复杂问题的CCKS 2019-CKBQA评测数据集上，该方法能达到较优异的性能，测试集上单模型系统平均F1值达到0.694，系统融合后达到0.731。

关键词：知识库问答；BERT；动态采样；集束搜索

引用格式：吴锟,周夏冰,李正华,梁兴伟,陈文亮. 中文知识库问答中的路径选择[J]. 中文信息学报, 2021, 35(9): 113-122.
WU Kun, ZHOU Xiabing, LI Zhenghua, LIANG Xingwei, CHEN Wenliang. Path Selection for Chinese Knowledge Base Question Answering[J].Journal of Chinese Information Processing, 2021, 35(9): 113-122.

全文链接：点击下载

✦SCT-CVAE: 基于分离Context机制与CVAE的Transformer对话模型

作者：苑浩，王泳

摘要：现有多轮对话生成的Encoder-Decoder模型容易产生单一的响应，虽然使用条件自动编码器（CVAE）可以有效改善响应的多样性问题，但是基于CVAE的模型大多不能够捕捉上下文中较长的依赖。同时，现有的模型也无法显式处理上下文话语和源语句之间的差异。该文将Transformer与CVAE结合，通过Transformer捕捉对话中的长依赖，使潜在变量可以学习到更丰富的对话分布。通过分离上下文语句的编码实现上下文的信息流向源语句，并使用门控机制来控制上下文话语和源语句的信息融合，捕捉对话中对响应影响更大的信息。实验表明，该模型产生的响应多样性更高，质量更好。

关键词：对话多样性；CVAE；分离Context机制；Transformer

引用格式：苑浩,王泳.SCT-CVAE: 基于分离Context机制与CVAE的Transformer对话模型[J]. 中文信息学报, 2021, 35(9): 123-131.
YUAN Hao, WANG Yong. SCT-CVAE: Transformer Based Dialogue Model via Separate Context and CVAE[J]. Journal of Chinese Information Processing, 2021, 35(9):123-131.

全文链接：点击下载

自然语言理解与生成

✦ 基于数据增强的高考阅读理解自动答题研究

作者：张虎，张颖，杨陟卓，钱揖丽，李茹

摘要：机器阅读理解是自然语言处理领域中的一项重要研究任务，高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少，基于深度学习的方法受到实验数据规模较小的限制，所得的实验结果相比传统方法无明显优势。基于此，该文探索了面向高考语文阅读理解的数据增强方法，结合传统的EDA数据增强思路提出了适应于高考阅读理解的EDA策略，针对阅读材料普遍较长的特征提出了基于滑动窗口的材料动态裁剪方式，围绕材料中不同句子的重要性差异明显的问题，提出了基于相似度计算的材料句质量评价方法。实验结果表明，三种方法均能提升高考题阅读理解自动答题的效果，答题准确率最高可提升5个百分点以上。

关键词：阅读理解；高考题；数据增强；深度学习

引用格式：张虎,张颖,杨陟卓,钱揖丽,李茹. 基于数据增强的高考阅读理解自动答题研究[J]. 中文信息学报, 2021, 35(9): 132-140.

ZHANG Hu, ZHANG Ying, YANG Zhizhuo, QIAN Yili, LI Ru. Data Augmentation Based Automatic Answering of Reading Comprehension in College Entrance Examination[J]. Journal of Chinese Information Processing, 2021, 35(9): 132-140.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2021年第9期（35卷第9期）

《中文信息学报》新刊概览∣ 2021年第9期（35卷第9期）

Recommend

《中文信息学报》新刊概览∣ 2019年第5期（33卷第5期）

停不下来

判断好资产、好价格的好帮手，知行数据上线

电子产品会损害我们的大脑吗？

一次失败的出售

好书一起读(471)：《故事：材质、结构、风格和银幕剧作的原理》

周杰伦魔杰电竞申请元宇宙商标、科技大佬两会提案曝光、马斯克弟弟自称不迷恋财富

会议交流 | 第十五届全国知识图谱与语义计算大会（CCKS 2021）12月25日线上召开

让万物穿过自己

细读《三国演义》：携民渡江害了百姓吗？

About Joyk