9

《中文信息学报》新刊概览∣ 2020年第7期(34卷第7期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484529&%3Bidx=1&%3Bsn=56f019e44200ba8c6bd75afa6f47d0c3
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2020年第7期(34卷第7期)

Original JCIP 中文信息学报 2020-08-18 08:19
640?wx_fmt=other
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

综述

✦ 神经机器翻译前沿综述

作  者:冯 洋, 邵晨泽

摘  要:机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。

关键词:神经机器翻译;模型训练;同声传译;多模态机器翻译;非自回归机器翻译;篇章翻译;领域自适应;多语言翻译

引用格式:冯洋,邵晨泽. 神经机器翻译前沿综述[J]. 中文信息学报, 2020, 34(7): 1-18. 

FENG Yang, SHAO Chenze. Frontiers in Neural Machine Translation: A Literature Review[J].Journal of Chinese Information Processing,2020, 34(7): 1-18.

全文链接:点击下载

✦ 从视觉到文本: 图像描述生成的研究进展综述

作  者:魏忠钰, 范智昊, 王瑞泽, 承怡菁, 赵王榕, 黄萱菁

摘  要:近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

关键词:图像描述生成;跨模态特征对齐;文献综述

引用格式:魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁. 从视觉到文本: 图像描述生成的研究进展综述[J]. 中文信息学报, 2020, 34(7): 19-29.

WEI Zhongyu, FAN Zhihao, WANG Ruize, CHENG Yijing, ZHAO Wangrong, HUANG Xuanjing. From Vision to Text: A Brief Survey for Image Captioning[J].Journal of Chinese Information Processing,2020, 34(7): 19-29.

全文链接:点击下载

✦ 句法分析前沿动态综述

作  者:屠可伟,李 俊

摘  要:句法分析的目标是分析输入句子并得到其句法结构,是自然语言处理领域的经典任务之一。目前针对该任务的研究主要集中于如何通过从数据中自动学习来提升句法分析器的精度。该文对句法分析方向的前沿动态进行了调研,分别从有监督句法分析、无监督句法分析和跨领域跨语言句法分析三个子方向梳理和介绍了2018—2019年发表的新方法和新发现,并对句法分析子方向的研究前景进行了分析和展望。

关键词:句法分析

引用格式:屠可伟,李俊. 句法分析前沿动态综述[J]. 中文信息学报, 2020, 34(7): 30-41.

TU Kewei, LI Jun. A Survey of Recent Developments in Syntactic Parsing[J].Journal of Chinese Information Processing,2020, 34(7): 30-41.

全文链接:点击下载

知识表示与知识获取

✦ 融合实体知识描述的实体联合消歧方法

作  者:范鹏程, 沈英汉,许洪波,程学旗,廖华明

摘  要:实体消歧(entity disambiguation)是指将文档中识别出的实体指称(entity mention)链向其在特定知识库中相应条目的过程。该文结合主流的基于深度学习的实体消歧方法并融合实体知识描述展开了实验性研究。实验结果表明,融合实体知识描述的实体消歧方法在公开数据集上取得了与已有最好算法相当的F1性能。

关键词:实体消歧;深度学习;注意力机制

引用格式:范鹏程,沈英汉,许洪波,程学旗,廖华明. 融合实体知识描述的实体联合消歧方法[J]. 中文信息学报, 2020, 34(7): 42-49,78.

FAN Pengcheng, SHEN Yinghan, XU Hongbo, CHENG Xueqi, LIAO Huaming. Joint Entity Disambiguation with Entity Knowledge Description[J].Journal of Chinese Information Processing,2020,34(7): 42-49,78.

全文链接:点击下载

✦ 融合实体描述及类型的知识图谱表示学习方法

作  者:杜文倩, 李弼程, 王 瑞

摘  要:知识图谱在很多人工智能领域发挥着越来越重要的作用。知识图谱表示学习旨在将三元组中的实体和关系映射到低维稠密的向量空间。TransE、TransH和TransR等基于翻译操作的表示学习方法,只考虑了知识图谱的三元组信息孤立的学习表示,未能有效利用实体描述、实体类型等重要信息,从而不能很好地处理一对多、多对多等复杂关系。针对这些问题,该文提出了一种融合实体描述及类型的知识图谱表示学习方法。首先,利用Doc2Vec模型得到全部实体描述信息的嵌入;其次,对实体的层次类型信息进行表示,得到类型的映射矩阵,结合Trans模型的三元组嵌入,得到实体类型信息的表示;最后,对三元组嵌入、实体描述嵌入及实体类型嵌入进行连接操作,得到最终实体嵌入的表示,通过优化损失函数训练模型,在真实数据集上分别通过链接预测和三元组分类两个评测任务进行效果评估,实验结果表明新方法优于TransE、TransR、DKRL、SimplE等主流模型。

关键词:人工智能;知识图谱;表示学习;链接预测;三元组分类

引用格式:杜文倩,李弼程,王瑞. 融合实体描述及类型的知识图谱表示学习方法[J]. 中文信息学报, 2020, 34(7): 50-59.

DU Wenqian, LI Bicheng, WANG Rui. Representation Learning of Knowledge Graph Integrating Entity Description and Entity Type[J].Journal of Chinese Information Processing,2020, 34(7): 50-59.

全文链接:点击下载

机器翻译

✦ 基于补全信息的篇章级神经机器翻译

作  者:张 培, 张 旭, 熊德意

要:对于句子级别的神经机器翻译,由于不考虑句子所处的上下文信息,往往存在句子语义表示不完整的问题。该文通过依存句法分析,对篇章中的每句话提取有效信息,再将提取出的信息,补全到源端句子中,使得句子的语义表示更加完整。该文在汉语-英语语言对上进行了实验,并针对篇章语料稀少的问题,提出了在大规模句子级别的平行语料上的训练方法。相比于基准系统,该文提出的方法获得了1.47个BLEU值的提高。实验表明,基于补全信息的篇章级神经机器翻译,可以有效地解决句子级别神经机器翻译语义表示不完整的问题。

关键词:神经机器翻译;篇章;补全

引用格式:张培,张旭,熊德意. 基于补全信息的篇章级神经机器翻译[J]. 中文信息学报, 2020, 34(7): 60-67. 

ZHANG Pei, ZHANG Xu,XIONG Deyi. Context Recovery for Document-Level Neural Machine Translation[J].Journal of Chinese Information Processing,2020, 34(7): 60-67.

全文链接:点击下载 

✦融合图像注意力的多模态机器翻译模型

作  者:李 霞, 马骏腾, 覃世豪

要:已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果。已有的工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用。基于此,该文提出一种融合图像注意力的多模态机器翻译模型,将图片中的全局语义和不同部分的局部语义信息与源语言文本的交互信息作为图像注意力融合到文本注意力权重中,从而进一步增强解码端隐含状态与源语言文本的对齐信息。在多模态机器翻译数据集Multi30k上英语—德语翻译对以及人工标注的印尼语—汉语翻译对上的实验结果表明,该文提出的模型相比已有的基于循环神经网络的多模态机器翻译模型效果具有较好的提升,证明了该模型的有效性。

关键词:多模态机器翻译;图像注意力;图像全局语义;图像局部语义

引用格式:李霞,马骏腾,覃世豪. 融合图像注意力的多模态机器翻译模型[J]. 中文信息学报, 2020, 34(7): 68-78.

LI Xia, MA Junteng, QIN Shihao. Image Attention Fusion for Multimodal Machine Translation[J].Journal of Chinese Information Processing,2020, 34(7): 68-78.

全文链接:点击下载 

信息抽取与文本挖掘

✦ 基于变分自编码器的无监督文本风格转换

作  者:聂锦燃, 魏蛟龙, 唐祖平

摘  要:近年来,文本风格转换作为一种可控的文本生成任务受到学者们越来越多的关注。该文基于变分自编码器模型,通过鉴别器与变分自编码器的对抗性训练,将源端句子的内容和风格在隐变量空间进行分离,从而实现无监督的文本风格转换。针对文本语义内容和风格的解纠缠过程中利用固定的二进制向量通过线性变换来对风格进行表征的方法的不足,该文提出更具细腻度的联合表征方法: 利用独立的编码器从原句中提取风格的连续隐向量,再和标签向量结合作为最终风格的表征,以提升风格转换的准确率。该文提出的联合表征方法在常用数据集Yelp上进行评测,与两个基线方法相比,风格转换准确率均有显著提升。

关键词:文本风格转换;变分自编码器;对抗性训练;联合表征

引用格式:聂锦燃,魏蛟龙,唐祖平. 基于变分自编码器的无监督文本风格转换[J]. 中文信息学报, 2020, 34(7): 79-88.

NIE Jinran, WEI Jiaolong, TANG Zuping. Unsupervised Text Style Transfer Based on Variational Auto-Encoder[J].Journal of Chinese Information Processing,2020, 34(7): 79-88.

全文链接:点击下载

信息检索与问答系统

✦Q2SM: 基于BERT的多领域任务型对话系统状态跟踪算法

作  者:张家培, 李舟军

要:基于管道的方法是目前任务型对话系统的主要构建方式,在工业界具有广泛应用,而对话状态跟踪(dialogue state tracking,DST)是任务型对话系统中的核心任务。面对传统的方法在多领域场景下表现较差的问题,该文结合语言模型预训练的最新研究成果,该文提出了一种基于BERT的对话状态跟踪算法Q2SM(query to state model)。该模型的上游使用了基于BERT的句子表征与相似度交互的槽判定模块,下游使用了一种面向对话状态跟踪任务的自定义RNN: DST-RNN。在WOZ 2.0和MultiWOZ 2.0两个数据集上的实验表明,Q2SM相比于之前的最好模型,分别在联合准确率和状态F1值两个评价指标上提升了1.09%和2.38%。此外,模型消融实验验证了,DST-RNN相比于传统的RNN或LSTM,不仅可以提升评价指标值,还可以加快模型的收敛速度。

关键词任务型对话系统;对话状态跟踪;多领域;BERT

引用格式:张家培,李舟军. Q2SM: 基于BERT的多领域任务型对话系统状态跟踪算法[J]. 中文信息学报, 2020, 34(7): 89-95.

ZHANG Jiapei, LI Zhoujun. Q2SM: Dialogue State Tracking Algorithm Based on BERT for Multi-Domain Task-Oriented Dialogue System[J].Journal of Chinese Information Processing,2020, 34(7): 89-95.

全文链接:点击下载

情感分析与社会计算

✦ 基于性格情绪特征的改进主题情感模型

作  者:李玉强, 黄 瑜, 孙 念, 李 琳, 刘爱华

要:近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。

关键词:主题情感模型;时间;性格特征;表情符号

引用格式:李玉强,黄瑜,孙念,李琳,刘爱华. 基于性格情绪特征的改进主题情感模型[J]. 中文信息学报, 2020, 34(7): 96-104.

LI Yuqiang, HUANG Yu,SUN Nian, LI Lin, LIU Aihua. An Improved Topic Sentiment Model Based on User Character[J].Journal of Chinese Information Processing,2020, 34(7): 96-104.

全文链接:点击下载

自然语言处理应用

✦ 基于门控化上下文感知网络的词语释义生成方法

作  者:张海同,孔存良,杨麟儿,何 姗,杜永萍,杨尔弘

摘  要:传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源。为减少人工编纂的时间和经济成本,该文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标词生成词语释义。该模型基于编码器—解码器架构。编码器首先利用双向GRU对目标词的上下文进行编码,并采用不同的匹配策略进行目标词与上下文的交互,结合注意力机制分别从粗粒度和细粒度两个层次将上下文信息融合到目标词的向量表示中,最终获得目标词在特定语境中的编码向量。解码器则同时基于目标词的语境与语义信息为目标词生成上下文相关的词语释义。此外,通过向模型提供目标词字符级特征信息,进一步提高了生成释义的质量。在英文牛津词典数据集上进行的实验表明,该文提出的方法能够生成易于阅读和理解的词语释义,在释义建模的困惑度和生成释义的BLEU值上分别超出此前模型4.45和2.19,性能有显著提升。

关键词:释义生成;GRU;编码器—解码器;注意力机制

引用格式:张海同,孔存良,杨麟儿,何姗,杜永萍,杨尔弘. 基于门控化上下文感知网络的词语释义生成方法[J]. 中文信息学报, 2020, 34(7): 105-112.

ZHANG Haitong, KONG Cunliang, YANG Liner, HE Shan, DU Yongping, YANG Erhong. Gated Context-Aware Network for Definition Generation[J].Journal of Chinese Information Processing,2020, 34(7): 105-112.

全文链接:点击下载

 

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=other

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK