《中文信息学报》新刊概览∣ 2019年第5期（33卷第5期）

JCIP 中文信息学报 2019-06-06 08:17

↑点开查看清晰大图

综述

✦ 文本摘要常用数据集和方法研究综述

作者：侯圣峦,张书涵,费超群

摘要：文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价，包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结，但大多都是对方法进行总结，而缺少对数据集的详细描述。该文从调研数据集的角度出发，对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等，对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集，给出了文本摘要问题的形式化定义。同时，对经典和最新方法在特定数据集上的实验效果进行了分析。最后，总结了已有常用数据集和方法的现状，并指出存在的一些问题。

关键词：文本摘要；自然语言处理；机器学习；人工智能

引用格式：侯圣峦,张书涵,费超群. 文本摘要常用数据集和方法研究综述[J]. 中文信息学报, 2019, 33(5): 1-16.

HOU Shengluan, ZHANG Shuhan, FEI Chaoqun. A Survey to Text Summarization: Popular Datasets and Methods[J].Journal of Chinese Information Processing,33(5): 1-16.

全文链接：点击下载

语言分析与计算

✦ 基于笔画中文字向量模型设计与研究

作者：赵浩新，俞敬松，林杰

摘要：中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符，没有利用中文笔画序列生成字向量，且受限于统计模型本质，无法为低频、未登录字词生成高质量向量表示。为此，该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec，扩展Word2Vec模型CBOW结构，使用卷积神经网络替换上下文信息矩阵、词向量矩阵，引入注意力机制，旨在模拟笔画构造汉字的规律，通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示，Stroke2Vec模型F1值达到81.49%，优于Word2Vec 1.21%，略优于GloVe模型0.21%，而Stroke2Vec产生的字向量结合Word2Vec模型结果，在NER上F1值为81.55%。

关键词：字向量；笔画；连续词袋模型

引用格式：赵浩新,俞敬松,林杰. 基于笔画中文字向量模型设计与研究[J]. 中文信息学报, 2019, 33(5): 17-23.

ZHAO Haoxin, YU Jingsong, LIN Jie. Design and Research on Chinese Word Embedding Model Based on Strokes[J].Journal of Chinese Information Processing,33(5): 17-23.

全文链接：点击下载

✦ 基于桥连接的词典学习方法的语义解析

作者：陈波，孙乐，韩先培

摘要：现阶段的语义解析方法大部分都基于组合语义，这类方法的核心就是词典。词典是词汇的集合，词汇定义了自然语言句子中词语到知识库本体中谓词的映射。语义解析一直面临着词典中词汇覆盖度不够的问题。针对此问题，该文在现有工作的基础上，提出了基于桥连接的词典学习方法，该方法能够在训练中自动引入新的词汇并加以学习，为了进一步提高新学习到的词汇的准确度，该文设计了新的词语—二元谓词的特征模板，并使用基于投票机制的核心词典获取方法。该文在两个公开数据集（WebQuestions和Free917）上进行了对比实验，实验结果表明，该文方法能够学习到新的词汇，提高词汇的覆盖度，进而提升语义解析系统的性能，特别是召回率。

关键词：语义解析；词典学习；组合语义；覆盖度

引用格式：陈波,孙乐,韩先培. 基于桥连接的词典学习方法的语义解析[J]. 中文信息学报, 2019, 33(5): 24-30.

CHEN Bo, SUN Le, HAN Xianpei. A Bridge-based Lexicon Learning Method for Semantic Parsing[J].Journal of Chinese Information Processing,33(5): 24-30.

全文链接：点击下载

✦ 融合语言特征的卷积神经网络的反讽识别方法

作者：卢欣，李旸，王素格

摘要：面对某些热点事件，微博评论者经常使用反讽来表达对于该事件的看法，以往的情感分析任务往往忽略这一语言现象。为了提高微博情感分析的准确率，该文对反讽识别开展了研究。通过分析中文文本的语言现象和社交网络的特性，归纳了中文微博反讽的语言特征，提出了一种融合语言特征的卷积神经网络（CNN）的反讽识别方法。该方法将反讽特征和句子分别采用Word Embedding作为输入，再卷积、池化后，将其全连接融合，构建了新的卷积神经网络模型。实验结果表明，该方法在反讽识别的性能上优于传统的基于机器学习的方法。

关键词：微博；反讽识别；卷积神经网络；语言特征

引用格式：卢欣,李旸,王素格. 融合语言特征的卷积神经网络的反讽识别方法[J]. 中文信息学报, 2019, 33(5): 31-38.

LU Xin, LI Yang, WANG Suge. Linguistic Features Enhanced Convolutional Neural Networks for Irony Recognition[J].Journal of Chinese Information Processing,33(5): 31-38.

全文链接：点击下载

✦ 基于门控记忆网络的汉语篇章主次关系识别方法

作者：王体爽,李培峰,朱巧明

摘要：篇章分析是自然语言理解的基础。作为篇章分析的重要任务之一，汉语主次关系识别还处于探索阶段。该文提出了一种基于门控记忆网络(GMN)的汉语篇章主次关系识别方法。该方法首先使用Bi-LSTM和CNN分别获取每个篇章单元的全局信息和局部信息。然后，融合两部分篇章单元信息并从中计算得到一个门控单元。最后，使用这个门控单元捕获各个篇章单元相对于篇章整体来说相对重要的特征表示，从而识别出核心篇章单元。在Chinese Discourse Treebank(CDTB)语料库上的实验显示，和最好的基准系统相比，该文的方法在宏平均F1、微平均F1值上均得到了提高。

关键词：篇章分析；主次识别；汉语篇章树库

引用格式：王体爽,李培峰,朱巧明. 基于门控记忆网络的汉语篇章主次关系识别方法[J]. 中文信息学报, 2019, 33(5): 39-46.

WANG Tishuang, LI Peifeng, ZHU Qiaoming. GMN-based Nuclearity Recognition in Chinese Discourse[J].Journal of Chinese Information Processing,33(5): 39-46.

全文链接：点击下载

✦ 基于多任务双向长短时记忆网络的隐式句间关系分析

作者：田文洪，高印权，黄厚文，黎在万，张朝阳

摘要：隐式句间关系识别是篇章句间关系识别任务中一个重要的问题。由于隐式句间关系的语料没有较好的特征，目前该任务的识别仍不能达到很好的效果。隐式句间关系的语句和显式句间关系的语句在语义等方面有着一定的联系，为了充分利用这两个任务之间的联系，该论文使用多任务学习的方法，并使用双向长短时记忆(Bi-LSTM)网络学习语句的相关特征；同时，为充分利用文本的特征，采用融合词嵌入的方法并引入先验知识。与其他基于哈工大的中文篇章级语义关系语料库的实验结果表明，该文方法的平均F1值为53%，提升约13%；平均召回率(Recall)为51%，提升约9%。

关键词： 篇章句间关系识别；隐式句间关系；多任务学习；双向长短时记忆网络；融合词嵌入

引用格式：田文洪,高印权,黄厚文,黎在万,张朝阳. 基于多任务双向长短时记忆网络的隐式句间关系分析[J]. 中文信息学报, 2019, 33(5): 47-53.

TIAN Wenhong, GAO Yinquan, HUANG Houwen, LI Zaiwan, ZHANG Zhaoyang. Implicit Discourse Relation Analysis Based on Multi-task Bi-LSTM[J].Journal of Chinese Information Processing,33(5): 47-53.

全文链接：点击下载

✦ 面向文本数据的正则化交叉验证方法

作者：王瑞波,王钰,李济洪

摘要：面向文本数据建模时，交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明，文本数据模型的性能估计对交叉验证的数据切分方式较为敏感，不合理的切分方式可能会导致不稳定的性能估计值，使得实验结果可复现性差。该文试图论证基于多次重复（m次）的2折交叉验证，通过引入对训练集、验证集分布差异的约束，所构造的正则化m×2交叉验证方法(简记为m×2 BCV）可以改善模型的性能指标的估计，适宜于模型比较。该文首先针对文本数据引入训练集与验证集分布差异的卡方度量，基于该度量构建数据切分的正则化条件，以最大化模型性能指标的信噪比为目标，给出了满足正则化条件的m×2 BCV的数据切分优化算法。最后，以自然语言处理中汉语框架语义角色标注任务为例，验证了基于m×2 BCV方法的有效性。

关键词：文本数据；正则化；交叉验证；信噪比

引用格式：王瑞波,王钰,李济洪. 面向文本数据的正则化交叉验证方法[J]. 中文信息学报, 2019, 33(5): 54-65.

WANG Ruibo, WANG Yu,LI Jihong. Regularized Cross-validation Method for Text Data Sets[J].Journal of Chinese Information Processing,33(5): 54-65.

全文链接：点击下载

知识表示与知识获取

✦ 一种使用多跳事实的端到端知识库实体描述生成方法

作者：孟庆松，张翔，何世柱，刘康，赵军

摘要：自动化实体描述生成有助于进一步提升知识图谱的应用价值，而流畅度高是实体描述文本的重要质量指标之一。该文提出使用知识库上多跳的事实来进行实体描述生成，从而贴近人工编撰的实体描述的行文风格，提升实体描述的流畅度。该文使用编码器—解码器框架，提出了一个端到端的神经网络模型，可以编码多跳的事实，并在解码器中使用关注机制对多跳事实进行表示。该文的实验结果表明，与基线模型相比，引入多跳事实后模型的BLEU-2和ROUGE-L等自动化指标分别提升约8.9个百分点和7.3个百分点。

关键词：知识图谱；实体描述；数据到文本生成

引用格式：孟庆松,张翔,何世柱,刘康,赵军. 一种使用多跳事实的端到端知识库实体描述生成方法[J]. 中文信息学报, 2019, 33(5): 66-74.

MENG Qingsong, ZHANG Xiang, HE Shizhu, LIU Kang, ZHAO Jun. An End-to-End Method of Entity Description Generation with Multi-hop Facts on Knowledge Bases[J].Journal of Chinese Information Processing,33(5): 66-74.

全文链接：点击下载

机器翻译

✦融入汉字字形特征的中英神经机器翻译模型

作者：蔡子龙,熊德意

摘要：神经机器翻译技术是目前机器翻译应用中取得效果最好的方法。将外部语言学知识如单词词性、依存句法标签引入神经机器翻译系统以提高翻译性能已经被很多学者证明是一种行之有效的途径。相较于其他表音文字，汉字是一种形声字，其构造方法具有一半表音、一半表意的特殊结构，这种特殊的构造法使得汉字含有丰富的语义、语音和句法信息。该文在Marta R等工作的基础上，提出了一种新的将字形特征融入端到端模型的方法，并将之应用于中文到英文的翻译上。与基准系统相比，该方法在NIST评测集上获得平均1.1个点的显著提升，有效地证明了汉字字形特征可以对神经机器翻译模型起到促进作用。

关键词：神经机器翻译；汉字字形特征；端到端模型

引用格式：蔡子龙,熊德意. 融入汉字字形特征的中英神经机器翻译模型[J]. 中文信息学报, 2019, 33(5): 75-81.

CAI Zilong, XIONG Deyi. Integrating Glyph Features of Chinese Character into Chinese-English Neural Machine Translation Model[J]. Journal of Chinese Information Processing, 33(5):75-81.

全文链接：点击下载

信息抽取与文本挖掘

✦基于框架语义扩展训练集的有监督事件检测方法

作者：张婧丽，周文瑄，洪宇,姚建民，周国栋，朱巧明

摘要：事件检测是信息抽取领域的一个重要研究方向，目前的事件检测方法往往受限于数据稀疏、语料例句分布不平衡和歧义问题。该文研究发现框架语义知识库FrameNet（FN）含有丰富的已标注框架的语料，并且FN中定义的框架和事件检测中定义的事件具有极其相似的结构。框架由词法单元和一组框架元素组成，可与事件中的触发词和论元形成对应关系；而且，FN中的许多框架实际上也能表达某些事件。因此，该文利用这一相似性构建事件类型与框架类型的映射关系，从而选取FN中合适的例句作为事件检测的扩充语料，以此来优化事件检测性能。实验结果显示，针对触发词识别任务和事件类型识别任务，该文提出的框架语义辅助方法取得了较好的效果。

关键词：事件检测；信息抽取；框架语义

引用格式：张婧丽,周文瑄,洪宇,姚建民,周国栋,朱巧明. 基于框架语义扩展训练集的有监督事件检测方法[J]. 中文信息学报, 2019, 33(5): 82-92,131.

ZHANG Jingli, ZHOU Wenxuan, HONG Yu, YAO Jianmin, ZHOU Guodong, ZHU Qiaoming. Frame Semantics Based Training Data Expansion for Supervised Event Detecting[J]. Journal of Chinese Information Processing,33(5): 82-92,131.

全文链接：点击下载

✦面向文本结构的混合分层注意力网络的话题归类

作者：车蕾,杨小平,王良,梁天新,韩镇远

摘要：针对目前话题归类模型中文本逻辑结构特征与文本组织结构特征利用不充分的问题，该文提出一种面向文本结构的混合分层注意力网络的话题归类模型(TSOHHAN)。文本结构包括逻辑结构和组织结构，文本的逻辑结构包括标题和正文等信息；文本的组织结构包括字—词语—句层次。TSOHHAN模型采用竞争机制融合标题和正文以增强文本逻辑结构特征在话题归类中的作用；同时该模型采用字-词语-句层次的注意力机制增强文本组织结构特征在话题归类中的作用。在4个标准数据集上的实验结果表明，TSOHHAN模型能够提高话题归类任务的准确率。

关键词：深度学习；注意力机制；混合分层注意力网络；话题归类

引用格式：车蕾,杨小平,王良,梁天新,韩镇远. 面向文本结构的混合分层注意力网络的话题归类[J]. 中文信息学报, 2019, 33(5): 93-102,112.

CHE Lei, YANG Xiaoping, WANG Liang, LIANG Tianxin, HAN Zhenyuan. Text Structure Oriented Hybrid Hierarchical Attention Networks for Topic Classification[J].Journal of Chinese Information Processing,33(5): 93-102,112.

全文链接：点击下载

✦ 基于视觉特征的网页信息抽取方法研究

作者：王宪发，郭岩，刘悦，俞晓明，程学旗

摘要：面对大规模异构网页，基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题，该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性，通过对论坛网站和新闻评论网站的信息抽取实验，验证了该框架的有效性。然后，针对视觉特征提取时间代价过高导致信息抽取效率较低的问题，该文使用WEMLVF，分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板，但模板的表达并不包含视觉特征，使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征，从而既充分利用了视觉特征在信息抽取中的作用，又显著提升了信息抽取的效率，实验结果验证了这一结论。

关键词：视觉特征；网络信息抽取；自动生成模板

引用格式：王宪发,郭岩,刘悦,俞晓明,程学旗. 基于视觉特征的网页信息抽取方法研究[J]. 中文信息学报, 2019, 33(5): 103-112.

WANG Xianfa, GUO Yan,LIU Yue, YU Xiaoming, CHENG Xueqi. Research on Web Page Information Extraction Based on Visual Features[J].Journal of Chinese Information Processing,33(5):103-112.

全文链接：点击下载

问答、对话、阅读理解

✦ 采用拼音降维的中文对话模型

作者：吴邦誉，周越，赵群飞，张朋柱

摘要：对话是自然语言处理的一个重要研究领域，其成果已经得到广泛的应用。然而中文对话模型训练时由于字词数量庞大，必然会面临模型复杂度过高的问题。为解决此问题，该文首先将对话模型的汉字输入转化为拼音输入并将拼音分为声母、韵母和声调三个部分，以此减小输入的字词数量。然后以嵌入编码的方法将拼音信息组合为图像形式，再通过全卷积神经网络(FCN)和双向Long Short Term Memory（LSTM）网络提取拼音特征。最后采用4层的Gated Recurrent Units(GRU)网络对拼音特征进行解码以解决长时记忆问题，得到对话模型的输出。在此基础上，模型在解码阶段加入了注意力机制，使模型的输出可以更好地与输入进行对应。为对提出的中文对话模型进行评价，该文建立了应用于医疗领域的中文对话数据库，并以BLEU和ROUGE_L为评价指标在该数据库上对模型进行了测试。

关键词：对话模型；拼音特征；注意力机制

引用格式：吴邦誉,周越,赵群飞,张朋柱. 采用拼音降维的中文对话模型[J]. 中文信息学报, 2019, 33(5): 113-121.

WU Bangyu, ZHOU Yue,ZHAO Qunfei, ZHANG Pengzhu. A Chinese Conversation Model Using Pinyin for Dimension Reduction[J].Journal of Chinese Information Processing,2019, 33(5): 113-121.

全文链接：点击下载

✦ 基于双通道卷积神经网络的问句意图分类研究

作者：杨志明，王来奇，王泳

摘要：人机对话技术近年来受到学术界和工业界的广泛关注。人机对话系统的一个关键任务就是如何让聊天机器人理解用户的问句意图并将用户的输入正确地分类到相应领域中，其性能直接影响到特定领域的人机对话质量。该文针对对话问句具有句子长度短、局部特征明显等特点，单通道卷积神经网络(Convolutional Neural Network，CNN)视角单一，不能充分学习到问句的特征信息和语义信息。该文在研究和分析了CNN算法的基础上，提出了意图分类双通道卷积神经网(Intent Classification Dual-channel Convolutional Neural Networks，ICDCNN)算法。该方法首先采用Word2Vec工具和Embedding层进行训练词向量提取问句中的语义信息特征；然后采用两个不同的通道进行卷积运算，一个通道传入字级别的词向量，另一个通道传入词级别的词向量，使用细粒度的字级别词向量协助词级别的词向量捕获自然语言问句中更深层次的语义信息；最后通过设置不同尺寸的卷积核，学习问句内部更深层次的抽象特征。通过对比实验结果表明，该算法在选用的中文实验数据集上取得了较高的准确率，较其他算法具有一定的优势。

关键词：卷积神经网络；自然语言问句理解；意图分类；词向量；字向量

引用格式：杨志明,王来奇,王泳. 基于双通道卷积神经网络的问句意图分类研究[J]. 中文信息学报, 2019, 33(5): 122-131.

YANG Zhiming, WANG Laiqi, WANG Yong. Questions Intent Classification Based on Dual Channel Convolutional Neural Network[J]. Journal of Chinese Information Processing,33(5): 122-131.

全文链接：点击下载

情感分析与社会计算

✦ 基于词向量预训练的不平衡文本情绪分类

作者：林怀逸，刘箴，柴玉梅，刘婷婷，柴艳杰

摘要：深度学习中处理不平衡问题的方法多为代价敏感和采样。该文在词向量迁移的基础上提出预训练任务选择方法。用利于小类别区分的预训练词向量来初始化目标模型，并结合均衡过采样充分利用样本信息保持模型在大类别上的精度，使模型提取的文本特征在大小类别上具有公平性，从特征层面实现了平衡效果。实验结果表明，在文本情绪分类任务中，对比过采样方法，该方法在大部分无严重过拟合情况下有更好的平衡效果。当存在较严重过拟合时，该方法在目标分类数为三时平衡效果显著，并通过实验验证了预训练方法可与代价敏感方法相结合提升平衡性能。

关键词：不平衡分类；情绪分类；均衡过采样；预训练词向量

引用格式：林怀逸,刘箴,柴玉梅,刘婷婷,柴艳杰. 基于词向量预训练的不平衡文本情绪分类[J]. 中文信息学报, 2019, 33(5): 132-142.

LIN Huaiyi, LIU Zhen,CHAI Yumei, LIU Tingting, CHAI Yanjie. Imbalanced Emotion Classification Based on Word Vector Pre-training[J].Journal of Chinese Information Processing,33(5):132-142.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2019年第5期（33卷第5期）

《中文信息学报》新刊概览∣ 2019年第5期（33卷第5期）

Recommend

停不下来

判断好资产、好价格的好帮手，知行数据上线

电子产品会损害我们的大脑吗？

一次失败的出售

好书一起读(471)：《故事：材质、结构、风格和银幕剧作的原理》

周杰伦魔杰电竞申请元宇宙商标、科技大佬两会提案曝光、马斯克弟弟自称不迷恋财富

会议交流 | 第十五届全国知识图谱与语义计算大会（CCKS 2021）12月25日线上召开

让万物穿过自己

细读《三国演义》：携民渡江害了百姓吗？

再说阿朱：替男人安排太多是种病

About Joyk