《中文信息学报》新刊概览∣ 2019年第11期（33卷第11期）

Original JCIP 中文信息学报 2019-11-18 03:19

↑点开查看清晰大图

综述

✦ 神经网络机器翻译研究热点与前沿趋势分析

作者：林倩,刘庆,苏劲松,林欢,杨静,罗斌

摘要：机器翻译是指利用计算机将一种语言文本转换成具有相同语义的另一种语言文本的过程。它是人工智能领域的一项重要研究课题。近年来，随着深度学习研究和应用的快速发展，神经网络机器翻译成为机器翻译领域的重要发展方向。该文首先简要介绍近一年神经网络机器翻译在学术界和产业界的影响，然后对当前的神经网络机器翻译的研究进展进行分类综述，最后对后续的发展趋势进行展望。

关键词：人工智能；深度学习；神经网络机器翻译

引用格式：林倩,刘庆,苏劲松,林欢,杨静,罗斌. 神经网络机器翻译研究热点与前沿趋势分析[J]. 中文信息学报, 2019, 33(11): 1-14. LIN Qian, LIU Qing, SU Jinsong, LIN Huan, YANG Jing, LUO Bin. Focuses and Frontiers Tendency in Neural Machine Translation Research[J].Journal of Chinese Information Processing,2019, 33(11): 1-14.

全文链接：点击下载

✦ 基于社交媒体的事件脉络挖掘研究进展

作者：张晨昕,饶元,樊笑冰,王硕

摘要：随着Web 2.0的兴起以及移动互联网与智能终端的蓬勃发展，以微博为代表的社交媒体迅速发展壮大。基于社交媒体的事件脉络挖掘技术在突发事件检测、事件走势分析、舆情预测等诸多方面发挥着重要作用,受到学术界的广泛关注。该文在最新研究成果与文献的基础上，以事件脉络挖掘的实现为出发点，概括总结了核心步骤中存在的关键技术，并归纳提出了目前事件脉络挖掘与分析过程中存在的4个关键性的技术问题与挑战，分别如下：多模态信息融合条件下的事件脉络生成、跨媒介异构数据协同下的事件挖掘与事件脉络生成、层次化多粒度复杂事件的关系映射和实时数据条件下动态事件的快速识别与脉络生成。同时,针对上述关键问题与技术挑战进行了理论探讨、工作进展与趋势分析以及实际应用介绍，从而为深入研究和解决基于社交媒体的事件脉络挖掘技术提供了新的研究线索与方向。

关键词：社交媒体；多模态信息；跨媒介；事件脉络挖掘

引用格式：张晨昕,饶元,樊笑冰,王硕. 基于社交媒体的事件脉络挖掘研究进展[J]. 中文信息学报, 2019, 33(11): 15-30.ZHANG Chenxin, RAO Yuan, FAN Xiaobing, WANG Shuo. Research Progress of Event Summarization Based on Social Media[J].Journal of Chinese Information Processing,2019, 33(11): 15-30.

全文链接：点击下载

语言分析与计算

✦ 基于词频逆文档频统计的词汇时间分布层次

作者：饶高琦,李宇明

摘要：汉语演变过程中，词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库，使用TF-IDF方法对词汇的时间分布进行了统计，并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析，建立了由基干层、过渡层、时间敏感层（时敏层）和逸散层构成的词汇时间分布四分层体系。

关键词：词频逆文档频，时间分布，历时，分层，汉语史

引用格式：饶高琦,李宇明. 基于词频逆文档频统计的词汇时间分布层次[J]. 中文信息学报, 2019, 33(11): 31-38.RAO Gaoqi, LI Yuming. TF-IDF Based Lexical Hierarchy Division of Diachronic Distribution[J].Journal of Chinese Information Processing, 2019, 33(11): 31-38.

全文链接：点击下载

✦ 融合词结构特征的多任务老挝语词性标注方法

作者：王兴金,周兰江,张建安,周枫

摘要：目前，老挝语词性标注研究处于初期，可用标注语料有限，且老挝语吸收了多种外来词，导致标注语料库存在大量稀疏词。多任务学习是有效识别稀疏词的一种方法，该文研究了老挝词的结构特征，并构建了结合词性标注损失和主辅音辅助损失的多任务老挝语词性标注模型。老挝词有很多词缀可以表达词性信息，因此模型还采用了字符级别的词向量来获取这些词缀信息。特别地，老挝语的句式较长，模型用注意力机制防止长远上下文特征丢失。实验结果表明：相比其他研究方法，该模型的词性标注准确率在有限标注语料下取得更好的表现（93.24%）。

关键词：老挝语词性标注；稀疏词；主辅音辅助损失；注意力机制

引用格式：王兴金,周兰江,张建安,周枫. 融合词结构特征的多任务老挝语词性标注方法[J]. 中文信息学报, 2019, 33(11): 39-45.WANG Xingjin, ZHOU Lanjiang, ZHANG Jianan, ZHOU Feng. A Multi-task Lao Part-of-Speech Tagging Method Fusing Structural Features of Word[J].Journal of Chinese Information Processing,2019, 33(11): 39-45.

全文链接：点击下载

✦ 基于上下文词向量和主题模型的实体消歧方法

作者：王瑞,李弼程,杜文倩

摘要：传统词向量训练模型仅考虑词共现而未考虑词序，语义表达能力弱。此外，现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征，该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先，在传统词向量模型上增加上下文方向向量，用于表征语序，并利用该模型与主题模型训练主题词向量；其次，分别计算实体上下文相似度、基于实体上下文主题的类别主题相似度以及基于主题词向量的实体主题相似度；最后，融合三种相似度，选择相似度最高的实体作为最终消歧实体。实验结果表明，相比于现有的主流消歧方法，新方法是有效的。

关键词：上下文词向量；实体消歧；知识库；主题词向量；主题模型

引用格式：王瑞,李弼程,杜文倩. 基于上下文词向量和主题模型的实体消歧方法[J]. 中文信息学报, 2019, 33(11): 46-56.WANG Rui, LI Bicheng, DU Wenqian. Entity Disambiguation Based on Context Word Vector and Topic Models[J].Journal of Chinese Information Processing,2019, 33(11): 46-56.

全文链接：点击下载

✦ 基于BERT的古文断句研究与应用

作者：俞敬松,魏一,张永伟

摘要：古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号，现代读者难以理解。人工断句有助于缓解上述困境，但需要丰富的专业知识，耗时耗力。计算机自动断句有助于加速对古文的准确理解，从而促进古籍研究以及中华文化的弘扬。除自动断句，该文还尝试了自动标点任务。该方案自行预训练古汉语BERT（Bidirectional Encoder Representations from Transformers）模型，并针对具体任务进行微调适配。实验表明，该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型，在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是，模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%，较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳，相关代码和模型已经开源发布

关键词：自动断句；自动标点；BERT；微调

引用格式：俞敬松,魏一,张永伟. 基于BERT的古文断句研究与应用[J]. 中文信息学报, 2019, 33(11): 57-63.YU Jingsong, WEI Yi, ZHANG Yongwei. Automatic Ancient Chinese Texts Segmentation Based on BERT[J].Journal of Chinese Information Processing,2019, 33(11): 57-63.

全文链接：点击下载

知识表示与知识获取

✦ 汉藏双语旅游领域知识图谱系统构建

作者：冯小兰,赵小兵

摘要：旅游业是藏族地区主要的经济来源之一。然而，目前互联网上缺乏藏文旅游信息智能化服务系统，且藏文景点介绍文本也十分匮乏；相反，汉文旅游网站信息量大，但各旅游网站包含的景点不尽相同，景点介绍文本篇幅较长，且各旅游网站对同一个景点描述侧重点不同。为便于不同语言使用者能快速准确地了解景点相关的知识，该文首先在汉文旅游领域分别采用基于BLSTM神经网络模型、基于维基百科以及基于网络爬虫等形式获取与景点相关的共8种属性知识；并通过采用基于维基百科等方法构建的旅游领域汉藏词典，将获取的汉文知识迁移到藏文，其翻译覆盖率平均值达70.44%。最终，构建汉藏双语旅游领域知识图谱。

关键词：旅游领域关系抽取；知识图谱；BLSTM

引用格式：冯小兰,赵小兵. 汉藏双语旅游领域知识图谱系统构建[J]. 中文信息学报, 2019, 33(11): 64-72. FENG Xiaolan, ZHAO Xiaobing. A Chinese-Tibetan Bilingual Knowledge Graph System in Tourism Domain[J].Journal of Chinese Information Processing,2019, 33(11): 64-72.

全文链接：点击下载

✦ TransRD：一种不对等特征的知识图谱嵌入表示模型

作者：朱艳丽,杨小平,王良,张志宇

摘要：知识图谱嵌入是一种将实体和关系映射到低维向量空间的技术。目前已有的嵌入表示方法在对具有不对等特征的知识图谱中的实体和关系建模时存在两大缺陷：一是假定头尾实体来自同一语义空间，忽略二者在链接结构和数量上的不对等；二是每个关系单独配置一个投影矩阵，忽略关系之间的内在联系，导致知识共享困难，泛化能力差。该文提出一种新的嵌入表示方法TransRD，首先对头尾实体采用不对等转换矩阵进行投影，并用ADADELTA算法自适应调整学习率；其次对关系按相关性分组，每组关系使用同一对投影矩阵的方式来共享公共信息，解决泛化能力差的问题。在公开的数据集WN18和FB15K以及MPBC_20(乳腺癌知识图谱的子集)上进行实验和结果分析并与现有的模型进行对比，结果表明TransRD在各项指标上均取得大幅提升。

关键词：知识图谱嵌入；不对等投影；关系相关性

引用格式：朱艳丽,杨小平,王良,张志宇. TransRD: 一种不对等特征的知识图谱嵌入表示模型[J]. 中文信息学报, 2019, 33(11): 73-82.ZHU Yanli, YANG Xiaoping, WANG Liang, ZHANG Zhiyu. TransRD: Embedding of Knowledge Graph with Asymmetric Features[J].Journal of Chinese Information Processing,2019, 33(11): 73-82.

全文链接：点击下载

✦ 基于生成对抗模型的异质信息网络语义表征方法研究

作者：赵瑜,谭海宁,刘志方,武超

摘要：近些年,网络表示学习问题吸引了大量研究者的关注,而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域，更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法，但是很少有工作同时结合两种模型进行表示学习的优化。该文提出了结合生成式模型和判别式模型的异构信息网络表示学习模型HINGAN，主要是将对抗生成思想融入异构信息网络表示学习过程中，达到优化网络表示结果的目的。该模型首先在元路径的引导下构建带权信息网络图，然后在带权图上计算更新构造的生成器和判别器参数，通过生成对抗的博弈思想来获取最大收益。在AMiner和DBLP两个真实学术图谱数据集上的实验结果表明，HINGAN在多标签分类、链路预测以及可视化方面都能比现在主流的网络表示方法取得更优的效果,并且HINGAN可以应用于大规模的异构网络数据的表示和计算。除此之外,该文还总结了已有研究成果并对未来研究可能面临的挑战进行了展望。

关键词：异质信息网络；语义信息挖掘；生成对抗网络；语义关系预测

引用格式：赵瑜,谭海宁,刘志方,武超. 基于生成对抗模型的异质信息网络语义表征方法研究[J]. 中文信息学报, 2019, 33(11): 83-94.ZHAO Yu, TAN Haining, LIU Zhifang, WU Chao. Generative Adversarial Network Based Semantic Representation Learning for Heterogeneous Information Network[J].Journal of Chinese Information Processing,2019, 33(11): 83-94.

全文链接：点击下载

信息抽取与文本挖掘

✦ 融合字词模型的中文命名实体识别研究

作者：殷章志,李欣子,黄德根,李玖一

摘要：命名实体识别(NER)是自然语言处理中一项非常重要的基础任务。传统的机器学习方法在处理该任务时，主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果，该文提出了一种融合字词BiLSTM模型的命名实体识别方法。首先分别用BiLSTM-CRF训练得到基于字的模型Char-NER和基于词的模型Word-NER，然后将两个模型得到的分值向量进行运算和拼接，将拼接后的向量作为特征送入SVM进行训练，使用SVM对Char-NER和Word-NER进行模型融合。实验结果表明，该方法在不需要人工特征的条件下，在1998年《人民日报》语料和MSRA语料上对人名、地名、机构名识别的F值分别达到了94.04%、92.15%、87.05%和91.73%、93.20%、83.15%。

关键词：命名实体识别；BiLSTM-CRF；模型融合；SVM

引用格式：殷章志,李欣子,黄德根,李玖一. 融合字词模型的中文命名实体识别研究[J]. 中文信息学报, 2019, 33(11): 95-100,106.YIN Zhangzhi, LI Xinzi, HUANG Degen, LI Jiuyi. Chinese Named Entity Recognition Ensembled with Character[J].Journal of Chinese Information Processing,2019, 33(11): 95-100,106.

全文链接：点击下载

✦ 融入多特征的汉越新闻观点句抽取方法

作者：林思琦,余正涛,郭军军,高盛祥

摘要：该文提出一种融入多特征的汉越双语新闻观点句抽取方法。首先针对汉语和越南语标记资源不平衡的问题，构建了汉越双语词嵌入模型，用丰富的中文标记资源来弥补越南语标记资源的缺失。并且该文认为句子的主题特征、位置特征和情感特征对观点句分类具有重要作用，因此将这些特征分别融入词向量和注意力机制中，实现句子语义信息和情感、主题、位置特征的结合。实验表明，该方法可有效提升越南语新闻观点句抽取的准确率。

关键词：观点句抽取；双语词嵌入；注意力机制

引用格式：林思琦,余正涛,郭军军,高盛祥. 融入多特征的汉越新闻观点句抽取方法[J]. 中文信息学报, 2019, 33(11): 101-106.LIN Siqi, YU Zhengtao, GUO Junjun, GAO Shengxiang. Chinese-Vietnamese News Perspective Sentence Extraction Methods Incorporating Multiple Features[J].Journal of Chinese Information Processing,2019, 33(11): 101-106.

全文链接：点击下载

✦ EntropyRank：基于主题熵的关键短语提取算法

作者：尹红,陈雁,李平

摘要：关键短语提取是自然语言处理领域的一个重要子任务，其目的是自动识别出文本中的重要短语，现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点，该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布，并结合两个主题分布来表示特定文档下的词主题分布，然后计算词主题分布的信息熵即主题熵来表示词语自身影响力，最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明，与现有的无监督关键短语提取算法相比，该算法在F1指标上能提高2.61%～6.98%。

关键词：关键短语提取；随机游走；主题模型；词语影响力

引用格式：尹红,陈雁,李平. EntropyRank: 基于主题熵的关键短语提取算法[J]. 中文信息学报, 2019, 33(11): 107-114.YIN Hong, CHEN Yan, LI Ping. EntropyRank: Keyphrase Extraction Algorithm Based on Topic Entropy[J].Journal of Chinese Information Processing,2019, 33(11): 107-114.

全文链接：点击下载

✦ 基于多任务学习的古诗和对联自动生成

作者：卫万成,黄文明,王晶,邓珍荣

摘要：实现古诗和对联的自动生成是极具挑战性的任务。该文提出了一种新颖的多任务学习模型用于古诗和对联的自动生成。模型采用编码-解码结构并融入注意力机制，编码部分由两个BiLSTM组成，一个BiLSTM用于关键词输入，另一个BiLSTM用于古诗和对联输入；解码部分由两个LSTM组成，一个LSTM用于古诗的解码输出，另一个LSTM用于对联的解码输出。在中国的传统文学中，古诗和对联具有很多的相似特征，多任务学习模型通过编码器参数共享，解码器参数不共享，让模型底层编码部分兼容古诗和对联特征，解码部分保留各自特征，增强模型泛化能力，表现效果大大优于单任务模型。同时，该文在模型中创新性地引入关键词信息，让生成的古诗及对联表达内容与用户意图一致。最后，该文采用自动评估和人工评估两种方式验证了方法的有效性。

关键词：LSTM；多任务学习；注意力机制；古诗对联生成

引用格式：卫万成,黄文明,王晶,邓珍荣. 基于多任务学习的古诗和对联自动生成[J]. 中文信息学报, 2019, 33(11): 115-124.WEI Wancheng, HUANG Wenming, WANG Jing, DENG Zhenrong. Chinese Classical Poetry and Couplet Generation Based on Multi-task Learning[J].Journal of Chinese Information Processing,2019, 33(11): 115-124.

全文链接：点击下载

信息检索与问答系统

✦面向知识库问答的实体链接方法

作者：赵畅,李慧颖

摘要：面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题: 第一是自然语言问句短，实体指称上下文不充分；第二是结构化知识库中实体的文本描述信息少。因此，该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法，弥补知识库实体描述信息不足的问题。同时，通过语料训练得到问句指称的相似实体指称作为其背景知识。最后，结合实体流行度，共同作为实体消歧的特征。实验结果表明，上述提到所有特征的线性组合在数据集上高于单个特征的结果，表现最佳。

关键词：知识库问答；实体链接；实体消歧；Freebase

引用格式：赵畅,李慧颖. 面向知识库问答的实体链接方法[J]. 中文信息学报, 2019, 33(11): 125-133.ZHAO Chang, LI Huiying. An Entity Linking Approach for Knowledge Base Question Answering[J].Journal of Chinese Information Processing,2019, 33(11): 125-133.

全文链接：点击下载

✦基于代表性答案选择与注意力机制的短答案自动评分

作者：谭红叶,午泽鹏,卢宇,段庆龙,李茹,张虎

摘要：短答案自动评分是智慧教学中的一个关键问题。目前自动评分不准确的主要原因是: （1）预先给定的参考答案不能覆盖多样化的学生答题情况；(2）不能准确刻画学生答案与参考答案匹配情况。针对上述问题，该文采用基于聚类与最大相似度方法选择代表性学生答案构建更完备的参考答案，尽可能覆盖学生不同的答题情况；在此基础上，利用基于注意力机制的深度神经网络模型来提升系统对学生答案与参考答案匹配情况的刻画。相关数据集上的实验结果表明: 该文模型有效提升了自动评分的准确率。

关键词：短答案自动评分；代表性答案；参考答案；注意力机制；神经网络

引用格式：谭红叶,午泽鹏,卢宇,段庆龙,李茹,张虎. 基于代表性答案选择与注意力机制的短答案自动评分[J]. 中文信息学报, 2019, 33(11): 134-142.TAN Hongye, WU Zepeng, LU Yu, DUAN Qinglong, LI Ru, ZHANG Hu. Using Representative Answers and Attentions for Short Answer Grading[J].Journal of Chinese Information Processing,2019, 33(11): 134-142.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2019年第11期（33卷第11期）

《中文信息学报》新刊概览∣ 2019年第11期（33卷第11期）

Recommend

未来大数据时代下的智能交通是什么样的？

如何找到时薪 80 美元的远程工作（一）

推荐系统候选池的两种去重策略

Blockchain Tech Deep Dive 3/4 | Meaning of Ownership

2018 平淡无奇

细读《三国演义》：诸葛亮的试金石

传GeForce RTX 3090 Ti将于3月29日上市，且英伟达已取消RTX 3070 Ti 16GB

《中文信息学报》全年合集，欢迎在线查阅！

HTMAA 2020

如何打造真正的简历

About Joyk