《中文信息学报》新刊概览∣ 2021年第5期（35卷第5期）

Original JCIP 中文信息学报 2021-06-02 07:15

↑点开查看清晰大图

语言分析与计算

✦ 基于小句复合体的句子边界自动识别研究

作者：何晓文，罗智勇，胡紫娟，王瑞琦

摘要：自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中，语素、词、短语等相关处理技术已经相对成熟，而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题，提出了中文句子切分的任务；基于小句复合体理论将句子定义为最小的话头自足的标点句序列，也就是自足的话题结构，并设计和实现了基于BERT的边界识别模型。实验结果表明，该模型对句子边界自动识别正确率、F1值分别达到88.37%、83.73%，识别效果优于按照不同的标点符号机械分割的效果。

关键词：句子；小句复合体；句子边界识别

引用格式：何晓文,罗智勇,胡紫娟,王瑞琦. 基于小句复合体的句子边界自动识别研究[J]. 中文信息学报, 2021, 35(5): 1-8.

HE Xiaowen, LUO Zhiyong, HU Zijuan, WANG Ruiqi. Automatic Recognition of Sentence Boundary Based on Clause Complex[J].Journal of Chinese Information Processing,2021, 35(5): 1-8.

全文链接：点击下载

✦ 基于CSL学习者认知的情感词汇计量与统计分析

作者：张易扬，王治敏，吴迪，张璇

摘要：该文以情感词汇词典为依托，通过四部小说中情感词汇的提取，对比和分析四部小说用词的情感分类、词性种类、极性和强度。在此基础上研究汉语作为第二语言（Chinese as a second language，CSL）学习者对“接受性词汇”的情感词汇熟悉度测量表现和“产出性词汇”的情感词汇输出表现，并进行了科勒-拉普假设检验。该文发现，现代汉语长篇小说在情感词汇的使用上，并不会因为作者、题材、内容不同而产生较大差异,文本中21类情感词赞扬类和贬责类占总词数的一半。另外，CSL学习者对频率高的情感词汇熟悉度不够，他们在产出情感词汇时动词和形容词产出不够丰富，悲伤类的词语产出较少，对表达强烈感情的词汇掌握的也不够多。

关键词：情感词汇词典；CSL学习者；二语习得

引用格式：张易扬,王治敏,吴迪,张璇. 基于CSL学习者认知的情感词汇计量与统计分析[J]. 中文信息学报, 2021, 35(5): 9-16,26.

ZHANG Yiyang, WANG Zhimin, WU Di, ZHANG Xuan.Measurement and Statistical Analysis of Emotional Vocabulary Based on CSLLearners' Cognition[J].Journal of Chinese Information Processing,2021, 35(5):9-16,26.

全文链接：点击下载

✦ 基于分布式表示的汉字部件表义能力测量与应用

作者：梁诗尘，唐雪梅，胡韧奋，吴金闪，刘智颖

摘要：汉字的表义性是其区别于表音文字的一大特点。部件作为构字单位，同汉字的意义之间有着很大的联系。然而，汉字部件的表义能力究竟如何是学界尚待讨论的课题。针对这一问题，该文从汉字部件入手，提出了融合部件的字词分布式表示模型。该模型在向量内部评测任务上性能获得了一定提升，在汉字理据性测量任务上也与人工打分结果显著相关。基于该模型，进一步提出了部件表义能力的计算方法，对汉字部件的表义能力做了整体评估，并结合部件的构字能力建立了现代汉字部件的等级体系。测量结果显示，现代汉字部件具有一定表义能力，但整体而言表义能力偏低。最后，将测量结果应用于对外汉语教学中，确立了适用于部件教学法的部件范围，并提出了对应的汉字教学顺序方案。

关键词：汉字部件；表义能力测量；分布式表示

引用格式：梁诗尘,唐雪梅,胡韧奋,吴金闪,刘智颖. 基于分布式表示的汉字部件表义能力测量与应用[J]. 中文信息学报, 2021, 35(5): 17-26.
LIANG Shichen, TANG Xuemei, HU Renfen, WU Jinshan, LIU Zhiying. Measurement and Application of Chinese Component Semantic Ability Based on Distributed Representation[J].Journal of Chinese Information Processing,2021, 35(5): 17-26.

全文链接：点击下载

✦ 人脑如何学习新的语言规则

作者：耿立波，杨丽，方娇艳，杨亦鸣

摘要：成人大脑究竟能否掌握新的语言规则，是语言学习研究领域一直存在争议的问题。习得年龄、输入量和相似性，哪个才是影响语言规则学习的重要因素？学界始终没有统一的结论。该文以成年汉语母语者为研究对象，基于小数据的人工语法学习（artificial grammar learning, AGL）范式设计实验，采用跟踪调查和事件相关电位技术，探讨在高/低输入量条件下，人脑加工与汉语相似程度不等的三种句法结构时的神经机制。结果发现，成人可以在小数据学习范式下，运用无监督学习方法掌握新的语言规则；人脑可以基于少量的规则输入习得多种人工语法规则，并表现出趋近于母语加工的自动加工模式；人脑通过竞争的方式习得新的语言规则。该研究丰富了AGL范式下的语言学习理论，并可以对自然语言处理相关研究提供一些启示。

关键词：人工语法；小数据；无监督学习；输入量；事件相关电位技术

引用格式：耿立波,杨丽,方娇艳,杨亦鸣. 人脑如何学习新的语言规则[J]. 中文信息学报, 2021, 35(5): 27-37,62.
GENG Libo, YANG Li, FANG Jiaoyan, YANG Yiming. How Brain Acquire New Language Rules[J].Journal of Chinese Information Processing,2021, 35(5): 27-37,62.

全文链接：点击下载

✦ CPLM-CSC: 基于单字级别预训练语言模型的中文错别字纠正方法

作者：谢海华，李奥林，李亚博，陈志优，程静，吕肖庆，汤帜

摘要：由于汉语语义表达的多样性和复杂性，中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想，而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC，能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测，并采用掩字语言模型来进行错别字纠正。为了提高纠正性能，CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法，并针对一些典型且特殊的错误，例如“的地得”误用，采取了专门的数据增强方法。CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试，取得了0.654的F1值，其性能优于其他模型。

关键词：中文错别字纠正；预训练语言模型；单字级别模型

引用格式：谢海华,李奥林,李亚博,陈志优,程静,吕肖庆,汤帜. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法[J]. 中文信息学报, 2021, 35(5): 38-45.
XIE Haihua, LI Aolin, LI Yabo, CHEN Zhiyou, CHENG Jing, LV Xiaoqing, TANG Zhi. CPLM-CSC: Character-based Pre-trained Language Model for Chinese Spelling Checking and Correction[J]. Journal of Chinese Information Processing,2021,35(5): 38-45.

全文链接：点击下载

知识表示与知识获取

✦ 聚合邻域信息的联合知识表示模型

作者：彭敏，黄婷，田纲，张鼎，罗娟，银源

摘要：知识表示学习在关系抽取、自动问答等自然语言处理任务中获得了广泛关注，该技术旨在将知识库中的实体与关系表示为稠密低维实值向量。然而，已有的模型在建模知识库中的三元组时，或是忽略三元组的邻域信息,导致无法处理关联知识较少的罕见实体，或是在引入邻域信息时不能自适应地为每个实体抽取最相关的邻节点属性，导致引入了冗余信息。基于以上问题，该文在知识表示模型TransE的基础上提出了聚合邻域信息的联合知识表示模型TransE-NA（neighborhood aggregation on TransE）。该模型首先根据实体的稀疏度确定其邻节点数量，然后根据实体的邻边关系选取对应邻节点上最相关的属性作为实体的邻域信息。在链接预测和三元组分类任务上的实验结果表明，该文的模型效果超越了基线模型，验证了该模型能有效聚合邻域信息，缓解数据稀疏问题，改善知识表示性能。

关键词：知识表示；邻域信息；知识图谱

引用格式：彭敏,黄婷,田纲,张鼎,罗娟,银源. 聚合邻域信息的联合知识表示模型[J].中文信息学报, 2021, 35(5): 46-54.
PENG Min, HUANG Ting, TIAN Gang, ZHANG Ding, LUO Juan, YIN Yuan. Neighborhood Aggregation for Knowledge Graph Representation[J]. Journal of Chinese Information Processing, 2021, 35(5): 46-54.

全文链接：点击下载

✦ 基于贝叶斯网络的实体属性补全

作者：佘琪星，姜天文，刘铭，秦兵

摘要：属性是实体的重要组成部分，因此实体属性的获取是知识图谱构建的关键步骤。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系构建而成的，因此为《大词林》中缺少属性的实体添加属性也成为必须研究的问题之一。该文提出了一种解决方案: 基于贝叶斯网络的概率统计模型，通过上位词概念与属性之间的依赖关系和实体与上位词概念的依赖关系来自动地为《大词林》中没有属性的实体添加属性，并与相似度计算方法对比证明了其有效性，可大规模提高《大词林》的属性覆盖率。

关键词：属性补全；知识图谱；大词林

引用格式：佘琪星,姜天文,刘铭,秦兵. 基于贝叶斯网络的实体属性补全[J]. 中文信息学报, 2021, 35(5): 55-62.
SHE Qixing, JIANG Tianwen, LIU Ming, QIN Bing. Entity Attribute Completion Based on Bayesian Network[J]. Journal of Chinese Information Processing, 2021, 35(5): 55-62.

全文链接：点击下载

信息抽取与文本挖掘

✦ 基于字符卷积神经网络的生物医学变异实体识别方法

作者：宋雅文，杨志豪，罗凌，王磊，张音，林鸿飞，王健

摘要：从海量生物医学文献中挖掘变异信息对生物医学复杂疾病研究具有重要意义。在当前的变异实体识别方法中，基于条件随机场模型的方法取得了不错效果并成为主流方法，但存在需要大量特征工程来提升模型性能的缺点。针对此问题，该文提出一种基于字符卷积神经网络的变异实体识别方法CharCNN-CNN-CRF。该方法首先利用一个多窗口大小的卷积神经网络获取字符级别的词表示，然后使用多层卷积神经网络编码上下文信息，最后通过CRF层解码得到整个句子的标签序列。实验结果表明，该方法仅使用随机初始化的字符向量作为输入就能快速、有效地识别变异实体，无需复杂的特征工程。同时也在tmVar和MutationFinder两个数据集上都取得了目前最好的结果（F值分别为88.34%和93.57%）。

关键词：变异实体识别；卷积神经网络；条件随机场

引用格式：宋雅文,杨志豪,罗凌,王磊,张音,林鸿飞,王健. 基于字符卷积神经网络的生物医学变异实体识别方法[J]. 中文信息学报, 2021, 35(5): 63-69.
SONG Yawen, YANG Zhihao, LUO Ling, WANG Lei, ZHANG Yin,LIN Hongfei, WANG Jian.Biomedical Mutation Entity Recognition Method Based on Character Convolution Neural Network[J].Journal of Chinese Information Processing,2021, 35(5): 63-69.

全文链接：点击下载

✦ 基于深度学习的中文生物医学实体关系抽取系统

作者：丁泽源，杨志豪，罗凌，王磊，张音，林鸿飞，王健

摘要：在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。

关键词：命名实体识别；关系抽取；条件随机场；双向长短期记忆网络

引用格式：丁泽源,杨志豪,罗凌,王磊,张音,林鸿飞,王健. 基于深度学习的中文生物医学实体关系抽取系统[J]. 中文信息学报, 2021, 35(5): 70-76.
DING Zeyuan, YANG Zhihao, LUO Ling, WANG Lei, ZHANG Yin, LIN Hongfei, WANG Jian. Chinese Biomedical Entity Relation Extraction System Based on Deep Learning[J]. Journal of Chinese Information Processing, 2021, 35(5): 70-76.

全文链接：点击下载

✦ 深度生成式模型在临床术语标准化中的应用

作者：闫璟辉，向露，周玉，孙建，陈思，薛晨

摘要：临床术语标准化任务是医学统计中不可或缺的一部分。在实际应用中，一个标准的临床术语可能有数种口语化和非标准化的描述，而对于一些应用例如临床知识库的构建而言，如何将这些描述进行标准化是必须要面对的问题。该文主要关注中文临床术语的标准化任务，即将非标准的中文临床术语的描述文本和给定的临床术语库中的标准词进行对应。尽管一些深度判别式模型在简单文本结构的医疗术语，例如，疾病、药品名等的标准化任务上取得了一定成效，但对于中文临床术语标准化任务而言，其带标准化的描述文本中经常包含的信息缺失、“一对多”等情况，仅依靠判别式模型无法得到完整的语义信息，因而导致模型效果欠佳。该文将临床术语标准化任务类比为翻译任务，引入深度生成式模型对描述文本的核心语义进行生成并得到标准词候选集，再利用基于BERT的语义相似度算法对候选集进行重排序得到最终标准词。该方法在第五届中国健康信息处理会议（CHIP2019）评测数据中进行了实验并取得了很好的效果。

关键词：术语标准化；核心语义；生成式模型

引用格式：闫璟辉,向露,周玉,孙建,陈思,薛晨. 深度生成式模型在临床术语标准化中的应用[J]. 中文信息学报, 2021, 35(5): 77-85.

YAN Jinghui, XIANG Lu, ZHOU Yu, SUN Jian, CHEN Si, XUE Chen. Clinical Entity Normalization Using Deep Generative Model[J]. Journal of Chinese Information Processing, 2021, 35(5): 77-85.

全文链接：点击下载

✦基于BERT蕴含推理的术语标准化系统

作者：崇伟峰, 李慧,李雪,任禾,于东,王晔晗

摘要：临床术语标准化即对于医生书写的任一术语，给出其在标准术语集合内对应的标准词。标准词数量多且相似度高，存在Zero-shot和Few-shot等问题，给术语标准化带来了巨大的挑战。该文基于“中国健康信息处理大会”CHIP 2019评测1中提供的数据集,设计并实现了基于BERT蕴含分数排序的临床术语标准化系统。该系统由数据预处理、BERT蕴含打分、BERT数量预测、基于逻辑回归的重排序四个模块组成。用精确率(Accuracy)作为评价指标，最终结果为0.948 25，取得了评测1第一名的成绩。

关键词：BERT；术语标准化；蕴含推理

引用格式：崇伟峰,李慧,李雪,任禾,于东,王晔晗. 基于BERT蕴含推理的术语标准化系统[J]. 中文信息学报, 2021, 35(5): 86-90.
CHONG Weifeng, LI Hui, LI Xue, REN He, YU Dong, WANG Yehan. Term Normalization System Based on BERT Entailment Reasoning[J]. Journal of Chinese Information Processing, 2021, 35(5): 86-90.

全文链接：点击下载

✦融合注意力LSTM的神经张量分解推荐模型

作者：李晶晶，夏鸿斌，刘渊

摘要：针对结合深度学习模型的协同过滤算法未考虑关联数据的多维交互随时间动态变化的问题，该文提出一种融合时间交互学习和注意力长短期记忆网络的张量分解推荐模型（LA-NTF）。通过采用基于注意力机制的长短期记忆网络从项目文本信息中提取项目的潜在向量，然后使用融合注意力机制的长短期记忆网络来表征用户—项目关系数据在时间上的多维交互，最后将用户—项目—时间三维张量嵌入多层感知器中,学习不同潜在因子之间的非线性结构特征，从而预测用户对项目的评分。在两个真实数据集上的大量实验表明，与其他传统方法和基于神经网络的矩阵分解模型相比，方根误差(RMSE)和平均绝对误差(MAE)指标均有明显提升，说明LA-NTF模型可显著改善各种动态关系数据的评级预测任务。

关键词：注意力机制;长短期记忆网络;时间交互学习;推荐系统;张量分解

引用格式：李晶晶,夏鸿斌,刘渊. 融合注意力LSTM的神经张量分解推荐模型[J]. 中文信息学报, 2021, 35(5): 91-100.

LI Jingjing, XIA Hongbin, LIU Yuan. Neural Tensor Factorization Recommendation Model Based on Attention LSTM[J].Journal of Chinese Information Processing, 2021, 35(5): 91-100.

全文链接：点击下载

问答与对话

✦ 基于多尺度自注意力增强的多方对话角色识别方法

作者：张禹尧，蒋玉茹，张仰森

摘要：角色识别任务是近年来提出的一项自然语言处理任务，面向多方参与的对话场景，目标是将对话中的人物提及映射到具体的人物实体。目前在该任务的最优系统中，只使用了较为简单的编码器，并未针对对话文本特点进行改造创新。该文在最优系统的基础上，提出了一种基于多尺度自注意力增强的方法，借助不同尺度的自注意力，来获得更好的信息表示。首先，通过尺度较大的全局注意力，对场景内的全部对话信息进行处理，保留了全局的对话信息；然后，通过尺度较小的局部注意力，对局部范围内的对话进行计算，捕获近距离的信息之间的关联关系；最后，将不同尺度得到的信息进行融合，达到对编码信息增强的效果。在SemEval2018 Task4任务上的实验结果表明了该方法的有效性，相较于目前最优系统，在全部实体的F1值上提高了18.94%。

关键词：角色识别；多尺度自注意力；全局注意力；局部注意力

引用格式：张禹尧,蒋玉茹,张仰森. 基于多尺度自注意力增强的多方对话角色识别方法[J]. 中文信息学报, 2021, 35(5): 101-109.
ZHANG Yuyao, JIANG Yuru, ZHANG Yangsen. Multi-party Dialogue Character Identification Method Based on Multi-scale Self-attention Enhancement[J]. Journal of Chinese Information Processing, 2021, 35(5): 101-109.

全文链接：点击下载

✦ 知识感知的多类型对话推荐

作者：张骏，杨燕，霍沛，孙宇翔，李程烽，李勇

摘要：智能推荐型对话系统通过丰富的交互方式与用户进行交流，首先收集用户兴趣和偏好，然后主动地向用户推荐其感兴趣的内容。因此，该类系统通常涵盖多种对话类型，如问答、闲聊、推荐等。目前的研究采用流水线模型，存在误差累积的问题。该文提出基于Transformer的具有知识感知能力的对话生成模型完成面向推荐的多类型对话任务。该模型使用Transformer解码器隐式地学习对话目标路径并生成回复。此外，该文通过引入知识编码器和基于知识词表的Copy机制，提升模型对知识的感知能力。在DuRecDial数据集上的实验表明，提出的模型和基线模型相比在自动评估中取得了显著的性能提升，其中F1、BLEU与Distinct分别提升了59.08%、110%、66.14%。该模型在2020语言与智能技术竞赛: 面向推荐的对话任务中获得第三名。

关键词：对话推荐；多类型对话；外部知识

引用格式：张骏,杨燕,霍沛,孙宇翔,李程烽,李勇. 知识感知的多类型对话推荐[J].中文信息学报, 2021, 35(5): 110-117.
ZHANG Jun, YANG Yan, HUO Pei, SUN Yuxiang, LI Chengfeng, LI Yong.Knowledge-aware Multi-type Conversational Recommendation[J]. Journal of Chinese Information Processing, 2021, 35(5): 110-117.

全文链接：点击下载

情感分析与社会计算

✦ 融合卷积神经网络与双向GRU的文本情感分析胶囊模型

作者：程艳，孙欢，陈豪迈，李猛，蔡盈盈，蔡壮

摘要：文本情感分析是自然语言处理领域一个重要的分支。现有深度学习方法不能更为全面地提取文本情感特征，且严重依赖于大量的语言知识和情感资源，需要将这些特有的情感信息充分利用使模型达到最佳性能。该文提出了一种融合卷积神经网络与双向GRU网络的文本情感分析胶囊模型。该模型首先使用多头注意力学习单词间的依赖关系、捕获文本中情感词，利用卷积神经网络和双向GRU提取文本不同粒度的情感特征，特征融合后输入全局平均池化层，在得到文本的实例特征表示的同时，针对每个情感类别结合注意力机制生成特征向量构建情感胶囊，最后根据胶囊属性判断文本情感类别。模型在MR、IMDB、SST-5及谭松波酒店评论数据集上进行实验，相比于其他基线模型具有更好的分类效果。

关键词：文本情感分析；多头注意力；卷积神经网络；双向门控循环网络；情感胶囊

引用格式：程艳,孙欢,陈豪迈,李猛,蔡盈盈,蔡壮. 融合卷积神经网络与双向GRU的文本情感分析胶囊模型[J]. 中文信息学报, 2021, 35(5): 118-129.
CHENG Yan, SUN Huan, CHEN Haomai, LI Meng, CAI Yingying, CAI Zhuang. TextSentiment Analysis Capsule Model Combining Convolutional Neural Network and Bidirectional GRU[J]. Journal of Chinese Information Processing, 2021, 35(5):118-129.

全文链接：点击下载

✦ 基于语料库的我国职业性别无意识偏见共时历时研究

作者：朱述承，苏祺，刘鹏远

摘要：性别偏见是社会学研究的热点。近年来，机器学习算法从数据中学到偏见，使之得到更广泛的关注，但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论，利用BCC和DCC语料库，从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先，以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向，发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度，利用BCC语料库中不同领域的语料，以及DCC语料库中2018年全国31个省级行政单位（不含港澳台地区）的报纸语料，发现从口语至书面语语体，大部分职业表现出对女性的性别偏见逐渐升高，且不同地区对职业的性别偏见存在差异。最后，从历时的角度，利用DCC语料库2005至2018年的报纸语料进行统计分析，发现职业性别无意识偏见现象随着时间的推移，呈现总体弱化趋势。

关键词：语料库；职业；性别；无意识偏见；标记理论

引用格式：朱述承,苏祺,刘鹏远. 基于语料库的我国职业性别无意识偏见共时历时研究[J]. 中文信息学报, 2021, 35(5): 130-140.
ZHU Shucheng, SU Qi, LIU Pengyuan. A Synchronic and Diachronic Study of Unconscious Gender Bias in Occupations Based on Corpus[J]. Journal of Chinese Information Processing, 2021, 35(5): 130-140.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2021年第5期（35卷第5期）

《中文信息学报》新刊概览∣ 2021年第5期（35卷第5期）

Recommend

Bucket and Object Versioning

吃货们来加群

《中文信息学报》新刊概览∣ 2019年第11期（33卷第11期）

未来大数据时代下的智能交通是什么样的？

如何找到时薪 80 美元的远程工作（一）

推荐系统候选池的两种去重策略

Blockchain Tech Deep Dive 3/4 | Meaning of Ownership

2018 平淡无奇

细读《三国演义》：诸葛亮的试金石

传GeForce RTX 3090 Ti将于3月29日上市，且英伟达已取消RTX 3070 Ti 16GB

About Joyk