《中文信息学报》新刊概览∣ 2020年第8期（34卷第8期）

Original JCIP 中文信息学报 2020-09-23 03:12

↑点开查看清晰大图

语言分析与计算

✦ 知识驱动的词嵌入向量的可解释性研究

作者：林星星，邱晓枫，刘扬，虞梦夏，祁晶，康司辰

摘要：神经网络语言模型应用广泛但可解释性较弱，其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入，以及基于训练和任务的算法性能分析，对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法，通过控制注入语义特征，并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论：语义特征可以通过控制注入到词嵌入向量中；注入语义特征的词嵌入向量表现出很强的语义合成性，即上层概念可以由下层概念表示；语义特征的注入在词嵌入向量的所有维度上都有体现。

关键词：可解释性；词嵌入向量；伪语料法

引用格式：林星星,邱晓枫,刘扬,虞梦夏,祁晶,康司辰. 语言知识驱动的词嵌入向量的可解释性研究[J]. 中文信息学报, 2020, 34(8): 1-9.

LIN Xingxing, QIU Xiaofeng, LIU Yang, YU Mengxia, QI Jing, KANG Sichen. A Study of Knowledge Motivated Explainalbe Word Embedding Vector[J].Journal of Chinese Information Processing,2020, 34(8): 1-9.

全文链接：点击下载

✦ 基于长时间跨度语料的词义演变计算研究

作者：孙琦鑫，饶高琦，荀恩东

摘要：该文收集了自晚清到21世纪间长达144年的连续历时报刊语料，通过统计分析和词语分布式表示两类方法展开研究，计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐，采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和“锚点词”二阶词向量表示三种方法，其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象，采用目标词历时自相似度和锚点词历时相似度的分析方法，并利用近邻词来明确目标词变迁前后的词义。

关键词：词义演变；历时语料；分布式表示

引用格式：孙琦鑫,饶高琦,荀恩东. 基于长时间跨度语料的词义演变计算研究[J]. 中文信息学报, 2020, 34(8): 10-22.

SUN Qixin, RAO Gaoqi, XUN Endong. A Study on Semantic Evolution Computation with Diachronic Corpus[J].Journal of Chinese Information Processing,2020, 34(8):10-22.

全文链接：点击下载

✦ 基于平行周遍原则的汉语未登录词的知识表示与预测

作者：康司辰，虞梦夏，刘扬

摘要：汉语未登录词的知识表示与预测，包括词性、构词结构、词义等项目，是计算语言学领域中的基础性问题。该文依据“平行周遍”原则，从现有的语义构词知识中提取“平行条件”，将未登录词潜在的构词因素与这些“平行条件”进行适应性匹配，从而对其知识表示进行相对完整的预测。该方法将新的语言学理论与未登录词的理解应用问题结合，取得了显著的效果，其解释能力、便捷性和精细程度优于此前方法。这些研究，除了在自然语言处理领域有实用价值，也有望推动词典编撰、语言研究与教学等人文领域的进展。

关键词：汉语未登录词;平行周遍条件;语义构词;知识表示;知识预测

引用格式：康司辰,虞梦夏,刘扬. 基于平行周遍原则的汉语未登录词的知识表示与预测[J]. 中文信息学报, 2020, 34(8): 23-31.

KANG Sichen, YU Mengxia, LIU Yang. Knowledge Representation and Prediction of Chinese Unknown Words via Parallel Conditions[J].Journal of Chinese Information Processing,2020, 34(8): 23-31.

全文链接：点击下载

语言资源建设

✦ 汉语委婉语语言资源建设

作者：张辰麟，王明文，谭亦鸣，肖文艳

摘要：委婉语是语言交流中不可或缺的交际手段，委婉语研究一直是语言学界的热门话题之一，但在自然语言处理领域，尚未有委婉语相关研究。该文借助现有纸质词典，基于语料库检索和专家人工判别的方式，初步构建了规模为63 000余条语料的汉语委婉语语言资源；并根据自然语言处理的相关任务需求，结合词典释义对委婉语进行分类。该文提出了利用同类委婉语的上下文语境辅助进行标注的方法。经过实验，对简单语义委婉语的语义判别准确率达89.71%，对语义复杂的兼类委婉语的语义判别准确率达74.65%，初步验证了利用计算机辅助人工标注构建委婉语语言资源的可行性。

关键词：委婉语；语义辨析；语言资源构建

引用格式：张辰麟,王明文,谭亦鸣,肖文艳. 汉语委婉语语言资源建设[J]. 中文信息学报, 2020, 34(8): 32-40.

ZHANG Chenlin, WANG Mingwen, TAN Yiming, XIAO Wenyan. Construction of Chinese Euphemism Resources[J].Journal of Chinese Information Processing,2020, 34(8): 32-40.

全文链接：点击下载

✦ 面向国防科技领域的技术和术语语料库构建方法

作者：冯鸾鸾，李军辉，李培峰，朱巧明

摘要：互联网存在海量的文献和科技信息，隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本，以维基百科中军事领域的新技术为基点采集语料，涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范，开展了大规模语料的标注工作，构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章，包含24 487个句子和33 756个技术和术语。同时，该文探讨了模型预标注策略的可行性，并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明，技术和术语识别性能F1值达到70-40%，为进一步的技术和术语识别研究提供了基础。

关键词：面向国防科技领域；技术和术语；标注规范；语料库

引用格式：冯鸾鸾,李军辉,李培峰,朱巧明. 面向国防科技领域的技术和术语语料库构建方法[J]. 中文信息学报, 2020, 34(8): 41-50.

FENG Luanluan, LIJunhui, LI Peifeng, ZHU Qiaoming. Constructing a Technology and Terminology Corpus Oriented National Defense Science[J].Journal of Chinese Information Processing,2020, 34(8): 41-50.

全文链接：点击下载

信息抽取与文本挖掘

✦ 利用门控机制融合依存与语义信息的事件检测方法

作者：陈佳丽，洪宇，王捷，张婧丽，姚建民

摘要：句子级事件检测任务目的是识别和分类事件触发词。现阶段工作主要将句子作为神经分类网络的输入，学习句子的深层语义信息，从而优化句子表示来改进事件检测任务的性能。该文发现除句子语义信息外，依存树包含的句法结构信息也有助于获取准确的句子表示。为此，该文采用双向长短时记忆网络对句子进行编码，捕获其语义信息；同时，设计图神经网络对句子的依存结构进行表示，获取其依存信息；此外，在对句子进行语义编码与依存编码时，该文利用自注意力机制使模型选择性地关注句子中的不同词，从而捕获句子中有助于事件检测的关键信息，并尽可能避免无关词的干扰；最后，该文提出门控机制，通过加权实现上述两种信息的动态融合。该文在自动文本抽取（automatic content extraction, ACE）数据集上进行实验，结果显示，该文提出的动态融合语义信息与依存信息的方法能更加有效地对句子进行编码，并捕获句子中的事件信息，在触发词识别与事件类型分类这两个子任务中，F1值均有较大提升，分别达到76.3%和73.9%。

关键词：语义信息；依存信息；门控机制；事件检测

引用格式：陈佳丽,洪宇,王捷,张婧丽,姚建民. 利用门控机制融合依存与语义信息的事件检测方法[J]. 中文信息学报, 2020, 34(8): 51-60.

CHEN Jiali, HONG Yu,WANG Jie, ZHANG Jingli, YAO Jianmin. Combination of Dependency and Semantic Information via Gated Mechanism for Event Detection[J].Journal of Chinese Information Processing,2020, 34(8): 51-60.

全文链接：点击下载

✦ 用于社交媒体的中文命名实体识别

作者：李源，马磊，邵党国，袁梅宇，张名芳

摘要：社交领域的中文命名实体识别(NER)是自然语言处理(NLP)中一项重要的基础任务。目前基于词粒度信息或者外部知识的中文命名实体识别方法，都会受到中文分词（CWS）和溢出词(OOV)等问题的影响。因此，该文提出了一种基于字符的使用位置编码和多种注意力的对抗学习模型。联合使用位置编码和多头注意力能够更好地捕获字序间的依赖关系，而使用空间注意力的判别器则能改善对外部知识的提取效果。该文模型分别在Weibo2015数据集和Weibo2017数据集上进行了实验，实验结果中的F1值分别为56.79%和60.62%。与多个基线模型相比，该文提出的模型性能更优。

关键词：位置编码;多种注意力机制;对抗学习;中文命名实体识别

引用格式：李源,马磊,邵党国,袁梅宇,张名芳. 用于社交媒体的中文命名实体识别[J]. 中文信息学报, 2020, 34(8): 61-69.

LI Yuan, MA Lei, SHAO Dangguo, YUAN Meiyu, ZHANG Mingfang. Chinese Named Entity Recognition for Social Media[J].Journal of Chinese Information Processing,2020, 34(8): 61-69.

全文链接：点击下载

✦ 融合空洞卷积神经网络与层次注意力机制的中文命名实体识别

作者：陈茹，卢先领

摘要：该文针对现有的命名实体识别模型未考虑到文本层次化结构对实体识别的重要作用，以及循环神经网络受其递归性的限制导致计算效率低下等问题，构建了IDC-HSAN模型（Iterated Dilated Convolutions Neural Networks and Hierarchical Self-attention Network）。该模型通过迭代的空洞卷积神经网络（ID-CNN）充分利用GPU的并行性大大降低了使用长短时记忆网络的时间代价。然后，采用层次化注意力机制捕获重要的局部特征和全局上下文中的重要语义信息。此外，为了丰富嵌入信息，加入了偏旁部首信息。最后，在不同领域数据集上的实验结果表明，IDC-HSAN模型能够从文本中获取有用的实体信息，和传统的深度网络模型、结合注意力机制的命名实体识别模型相比识别效果有所提升。

关键词：注意力机制；迭代空洞卷积神经网络；中文命名实体识别

引用格式：陈茹,卢先领. 融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J]. 中文信息学报, 2020, 34(8): 70-77.

CHEN Ru, LU Xianling.Combing Iterated Dilated Convolutions Neural Network and Hierarchical Attention Network for Chinese Named Entity Recognition[J].Journal of Chinese Information Processing,2020, 34(8): 70-77.

全文链接：点击下载

信息检索与问答系统

✦基于HRED模型的中文多轮对话任务方法研究

作者：王孟宇，俞鼎耀，严睿，胡文鹏，赵东岩

摘要：多轮对话任务是自然语言处理中最具有实用价值的技术之一，该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来，出现了一大批以HRED(hierarchical recurrent encoder-decoder)模型为基础的多轮对话模型，其运用多层级的循环神经网络来编码上下文信息，并在Movie-DiC等英文对话数据集上取得了不错的结果。在2018年京东举办的中文多轮对话大赛中，京东向参赛选手公布了一批高质量的真实客服对话语料。该文在此数据上进行实验，针对HRED模型的缺点以及在中文语料下的表现进行改进，提出基于注意力和跨步融合机制与HRED模型结合的方案，实验结果表明，该方案取得了较大的性能提升。

关键词：多轮对话；生成式模型；自然语言处理

引用格式：王孟宇,俞鼎耀,严睿,胡文鹏,赵东岩. 基于HRED模型的中文多轮对话任务方法研究[J]. 中文信息学报, 2020, 34(8): 78-85.

WANG Mengyu, YU Dingyao, YAN Rui, HU Wenpeng, ZHAO Dongyan. Chinese Multi-turn Dialogue Tasks Based on HERD Model[J].Journal of Chinese Information Processing,2020, 34(8):78-85.

全文链接：点击下载

✦卷积重提取特征的文档列表排序学习方法

作者：曹军梅，马乐荣

摘要：在许多信息检索任务中，为了进一步提高检索性能，通常需要对检索到的文档进行重新排序，目前的排序学习方法主要集中在损失函数的构造上，而没有考虑特征之间的关系。该文将多通道深度卷积神经网络作用于文档列表排序学习方法，即ListCNN，实现了信息检索的精确重排序。由于从文档中提取的多个特征中有一些特征具有局部相关性和冗余性，因此，文中使用卷积神经网络来重新提取特征，以提高列表方法的性能。ListCNN架构考虑了原始文档特征的局部相关性，能够有效地重新提取代表性特征。在公共数据集LETOR 4.0上对ListCNN进行实验验证，结果表明其性能优于已有文档列表方法。

关键词：排序学习；文档列表；梯度下降；卷积神经网络

引用格式：曹军梅,马乐荣. 卷积重提取特征的文档列表排序学习方法[J]. 中文信息学报, 2020, 34(8): 86-93.

CAO Junmei, MA Lerong. Listwise Reranking via Convolutional Re-extracted Features[J].Journal of Chinese Information Processing,2020, 34(8): 86-93.

全文链接：点击下载

机器阅读理解

✦ 基于粗糙集和多通道词向量的中文文本情感特征分析

作者：陈波，谢珺，苗夺谦，王雨竹，续欣莹

摘要：粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具，粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题，该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特征建模，采用Johnson粗糙集属性约简算法对决策表进行化简，保留最小的文本情感词特征属性集，之后再对该集合中的所有情感特征词进行词嵌入表示，最后用逻辑回归分类器验证RS-WvGv方法的有效性。另外，该文还定义了情感词特征属性集覆盖力，用于表示文本情感词特征属性集合对语料库的覆盖能力。最后，在实验对比的过程中，用统计检验进一步验证了该方法的有效性。

关键词：属性约简；情感特征提取；词向量；情感分类

引用格式：陈波,谢珺,苗夺谦,王雨竹,续欣莹. 基于粗糙集和多通道词向量的中文文本情感特征分析[J]. 中文信息学报, 2020, 34(8): 94-104.

CHEN Bo, XIE Jun,MIAO Duoqian, WANG Yuzhu, XU Xinying. Chinese Text Sentiment Feature Analysis Based on Rough Set and Multi Channel Word Vector[J].Journal of Chinese Information Processing,2020, 34(8): 94-104.

全文链接：点击下载

✦基于对话结构和联合学习的情感和意图分类

作者：张伟生，王中卿，李寿山，周国栋

摘要：在社交媒体中存在大量的对话文本，而在这些对话中，说话人的情感和意图通常是相关的。不仅如此，对话的整体结构也会影响对话的情感和意图，因此，需要对对话中的情感和意图进行联合学习。为此，该文提出了基于对话结构的情感、意图联合学习模型，考虑对话内潜在的情感与意图的关联性，并且利用对话的内在结构与说话人的情感和意图之间的关系，提升多轮对话文本的每一子句情感及其意图的分类性能。同时，通过使用注意力机制，利用对话的前后联系来综合考虑上下文对对话情感的影响。实验表明，联合学习模型能有效地提高对话子句情感及意图分类的性能。

关键词：情感分类；联合学习；注意力机制

引用格式：张伟生,王中卿,李寿山,周国栋. 基于对话结构和联合学习的情感和意图分类[J]. 中文信息学报, 2020, 34(8): 105-112.

ZHANG Weisheng, WANG Zhongqing, LI Shoushan, ZHOU Guodong. Joint Model for Sentiment and Act Classification Using Dialog Structure[J]. Journal of Chinese Information Processing, 2020, 34(8): 105-112.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2020年第8期（34卷第8期）

《中文信息学报》新刊概览∣ 2020年第8期（34卷第8期）

Recommend

《中文信息学报》新刊概览∣ 2021年第8期（35卷第8期）

两会开启！这里是13 份关于自动驾驶、智能汽车的最新提案建议

2021年春节放假通知

我们需要延迟满足吗？

【招聘广告】GrowingIO招聘机器学习工程师&实习生

Inspecting Web Views in macOS

【简单粗暴的福利帖】抽奖送书

零信任如何缓解5G安全挑战？

有效的云迁移策略为企业带来的六大好处

网易云音乐的随机算法是不是有问题

About Joyk