3

《中文信息学报》新刊概览∣ 2020年第2期(34卷第2期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484461&%3Bidx=1&%3Bsn=d7a5731e89e81087e99b483c63b4370c
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2020年第2期(34卷第2期)

Original JCIP 中文信息学报 2020-04-23 01:42
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

综述

✦ 跨语言词向量研究综述

作  者:彭晓娅,周 栋

摘  要:随着人们对互联网多语言信息需求的日益增长,跨语言词向量已成为一项重要的基础工具,并成功应用到机器翻译、信息检索、文本情感分析等自然语言处理领域。跨语言词向量是单语词向量的一种自然扩展,词的跨语言表示通过将不同的语言映射到一个共享的低维向量空间,在不同语言间进行知识转移,从而在多语言环境下对词义进行准确捕捉。近几年跨语言词向量模型的研究成果比较丰富,研究者们提出了较多生成跨语言词向量的方法。该文通过对现有的跨语言词向量模型研究的文献回顾,综合论述了近年来跨语言词向量模型、方法、技术的发展。按照词向量训练方法的不同,将其分为有监督学习、无监督学习和半监督学习三类方法,并对各类训练方法的原理和代表性研究进行总结以及详细的比较;最后概述了跨语言词向量的评估及应用,并分析了所面临的挑战和未来的发展方向。

关键词:跨语言词向量;深度学习;有监督方法;半监督方法;无监督方法

引用格式:彭晓娅,周栋. 跨语言词向量研究综述[J]. 中文信息学报, 2020, 34(2): 1-15,26.

PENG Xiaoya, ZHOU Dong. Survey of Cross-Lingual Word Embedding[J].Journal of Chinese Information Processing,2020, 34(2): 1-15,26.

全文链接:点击下载

语言资源建设

✦ 基于众包标注的语文教材句子难易度评估研究

作  者:于 东,吴思远,耿朝阳,唐玉玲

摘  要:该文提出了一种基于成对比较的众包标注方法,该方法可以通过非专业人士的简单判断获取标准统一的句子难度标注结果。基于该方法,构建了基于语文教材的由18 411个句子组成的汉语句子难度语料库。面向单句绝对难度评估和句对相对难度评估两项基本的句子难易度评估任务,使用机器学习方法训练汉语句子难度评估模型,并进一步探讨了不同层面语言特征对模型性能的影响。实验结果显示,基于机器学习的分类模型可以有效预测句子的绝对难度和相对难度,最高准确率分别为63.37%和67.95%。语言特征可以帮助提升模型的性能,相比于词汇和句法层面的特征,加入汉字层面特征的模型在两项任务上的准确率最高。

关键词:句子难易度评估;可读性研究;众包标注;语文教材语料库

引用格式:于东,吴思远,耿朝阳,唐玉玲. 基于众包标注的语文教材句子难易度评估研究[J]. 中文信息学报, 2020, 34(2): 16-26.

YU Dong, WU Siyuan, GENG Zhaoyang, TANG Yuling. Assessing Sentence Difficulty in Chinese Textbooks Based on Crowdsourcing[J].Journal of Chinese Information Processing,2020, 34(2): 16-26.

全文链接:点击下载

机器翻译

✦ 基于单语语料和词向量对齐的蒙汉神经机器翻译研究

作  者:曹宜超,高 翊,李 淼,冯 韬,王儒敬,付 莎

摘  要:近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。

关键词:蒙汉神经机器翻译;单语语料;词向量对齐

引用格式:曹宜超,高翊,李淼,冯韬,王儒敬,付莎. 基于单语语料和词向量对齐的蒙汉神经机器翻译研究[J]. 中文信息学报, 2020, 34(2): 27-32,37.

CAO Yichao, GAO Yi, LI Miao, FENG Tao, WANG Rujing, FU Sha. Mongolian-Chinese Neural Machine Translation Based on Monolingual Corpora and Word Embedding Alignment[J].Journal of Chinese Information Processing,2020, 34(2): 27-32,37.

全文链接:点击下载

民族、跨境及周边语言信息处理

✦ 基于词性约束的藏文分词策略与算法

作  者:才让卓玛,才智杰

要:自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。

关键词:分词;词性;未登录词;歧义

引用格式:才让卓玛,才智杰. 基于词性约束的藏文分词策略与算法[J]. 中文信息学报, 2020, 34(2): 33-37.

CAI Rangzhuoma, CAI Zhijie. Tibetan Word Segmentation Based on POS[J].Journal of Chinese Information Processing,2020, 34(2): 33-37.

全文链接:点击下载 

信息抽取与文本挖掘

✦ ResNet结合BiGRU的关系抽取混合模型

作  者:唐 朝,诺明花,胡 岩

摘  要:关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase 数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。

关键词:关系抽取;卷积神经网络;递归神经网络;注意力机制

引用格式:唐朝,诺明花,胡岩. ResNet结合BiGRU的关系抽取混合模型[J]. 中文信息学报, 2020, 34(2): 38-45.

TANG Chao, NUO Minghua, HU Yan. A Hybrid Model for Relation Extraction via ResNet & BiGRU[J].Journal of Chinese Information Processing,2020, 34(2): 38-45.

全文链接:点击下载

✦ 基于Bi-GRU并包含注意力机制的文本数据真值发现

作  者:常 宸,曹建军,吕国俊,郑奇斌,翁年凤

摘  要:针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠度及用户答案可靠度。依据真值发现的一般假设,无监督学习上下文向量,并最终获得可靠答案。实验结果表明,该算法适用于文本数据真值发现场景,较基于检索的方法及传统真值发现算法效果更优。

关键词:数据质量;真值发现;神经网络;文本挖掘

引用格式:常宸,曹建军,吕国俊,郑奇斌,翁年凤. 基于Bi-GRU并包含注意力机制的文本数据真值发现[J]. 中文信息学报, 2020, 34(2): 46-55.

CHANG Chen, CAO Jianjun, LV Guojun, ZHENG Qibin, WENG Nianfeng. Truth Discovery from Text Data by Bi-GRU with Attention Mechanism[J].Journal of Chinese Information Processing,2020, 34(2): 46-55.

全文链接:点击下载

✦ 基于GMM的文本规则挖掘的粗糙集方法研究

作  者:洪壮壮,黄兆华,万仲保,张 薇,高梦茜

摘  要:领域文本具有结构复杂、相似性高以及动态变化等特点,且存在着连续型与离散型并存的混合数据,这在一定程度上限制了知识发现方法对文本规则的挖掘效率。针对这一问题,该文提出了基于GMM与粗糙集的文本规则挖掘方法。该方法首先根据目标数据的属性类型构造信息表;然后利用高斯混合模型(GMM,Gaussian Mixture Model)聚类算法对连续数据进行聚类划分,依此对数据进行离散化及状态约简,并生成决策表;最后利用粗糙集理论对决策表进行属性约简,通过约简表对决策规则进行提取。实验结果表明:相比于传统的方法,该文方法拥有更高的抽取精度以及较强的属性约简能力,其信息抽取的平均准确率与F1值能够达到95.0%和95.7%。

关键词:混合数据;规则挖掘;高斯混合模型;粗糙集;属性约简;决策规则

引用格式:洪壮壮,黄兆华,万仲保,张薇,高梦茜. 基于GMM的文本规则挖掘的粗糙集方法研究[J]. 中文信息学报, 2020, 34(2): 56-62.

HONG Zhuangzhuang, HUANG Zhaohua, WAN Zhongbao, ZHANG Wei, GAO Mengxi. Research on Rough Set Method of Text Rule Mining Based on GMM[J].Journal of Chinese Information Processing,2020, 34(2): 56-62.

全文链接:点击下载

✦ 结合预训练模型和语言知识库的文本匹配方法

作  者:周烨恒,石嘉晗,徐睿峰

摘  要:针对文本匹配任务,该文提出一种大规模预训练模型融合外部语言知识库的方法。该方法在大规模预训练模型的基础上,通过生成基于WordNet的同义—反义词汇知识学习任务和词组—搭配知识学习任务引入外部语言学知识。进而,与MT-DNN多任务学习模型进行联合训练,以进一步提高模型性能。最后利用文本匹配标注数据进行微调。在MRPC和QQP两个公开数据集的实验结果显示,该方法可以在大规模预训练模型和微调的框架基础上,通过引入外部语言知识进行联合训练有效提升文本匹配性能。

关键词:文本匹配;预训练模型;语言知识库融合

引用格式:周烨恒,石嘉晗,徐睿峰. 结合预训练模型和语言知识库的文本匹配方法[J]. 中文信息学报, 2020, 34(2): 63-72.

ZHOU Yeheng, SHI Jiahan, XU Ruifeng. A Text Matching Method by Combining Pre-trained Model and Language Knowledge Base[J].Journal of Chinese Information Processing,2020, 34(2): 63-72. 

全文链接:点击下载

✦ 基于隐含主题协同注意力网络的领域分类方法

作  者:黄培松,黄沛杰,丁健德,艾文程,章锦川

摘  要:基于注意力机制的神经网络模型在文本分类任务中显示出了很好的效果。然而当训练数据的规模有限,或者测试数据与训练数据的分布有较大差异时,一些有价值的信息词很难在训练中被模型捕捉到。为此,该文提出了一种新的基于协同注意力(co-attention)网络的领域分类方法。该文利用隐含主题模型学习隐含主题注意力,并将其引入到文本分类常用的双向长短时记忆网络(BiLSTM)中,与软或硬注意力(soft-or hard-attention)机制一起构成协同注意力。在中文话语领域分类基准语料SMP-ECDT上的实验结果表明,隐含主题协同注意力网络取得了显著优于注意力机制的领域分类效果,比基线注意力机制Soft att、Hard att以及单独的隐含主题注意力机制BTM att分别提高了2.85%、1.86%和1.74%的分类正确率。此外,实验结果还验证了,在额外的未标记数据上训练隐含主题,可以进一步提高该文方法的领域分类性能。

关键词:领域分类;协同注意力;隐含主题;BiLSTM

引用格式:黄培松,黄沛杰,丁健德,艾文程,章锦川. 基于隐含主题协同注意力网络的领域分类方法[J]. 中文信息学报, 2020, 34(2): 73-79.

HUANG Peisong, HUANG Peijie, DING Jiande, AI Wencheng, ZHANG Jinchuan. Latent Topic-Enriched Co-Attention Networks for Domain Classification[J].Journal of Chinese Information Processing,2020, 34(2): 73-79.

全文链接:点击下载

情感分析与社会计算

✦面向智能客服系统的情感分析技术

作  者:宋双永,王 超,陈成龙,周 伟,陈海青 

要:该文以阿里小蜜为例,对智能客服系统中的情感分析技术进行比较全面的介绍,包括情感分析算法模型的原理及其在智能客服系统的多个应用场景中的实际落地使用方式和效果分析。智能客服在解决客户高频业务问题的同时,也需要给客户提供多维度的、具有类人能力的助理、导购、语聊和娱乐等服务,提高客户对智能客服机器人的整体满意度。在此过程中,情感分析技术在机器人类人能力建设中起到了至关重要的作用。该文围绕智能客服系统中人机结合的服务形式,从六个维度总结和介绍了情感分析技术在智能客服系统中的应用场景,包括用户情感检测、用户情感安抚、情感生成式语聊、客服服务质检、会话满意度预估和智能人工入口。

关键词情感分析;文本匹配;生成式语聊

引用格式:宋双永,王超,陈成龙,周伟,陈海青. 面向智能客服系统的情感分析技术[J]. 中文信息学报, 2020, 34(2): 80-95.

SONG Shuangyong, WANG Chao, CHEN Chenglong, ZHOU Wei, CHEN Haiqing. Sentiment Analysis for Intelligent Customer Service Chatbots[J].Journal of Chinese Information Processing,2020, 34(2): 80-95.

全文链接:点击下载

✦基于语言特征自动获取的反问句识别方法

作  者:李 旸,吴卓嘉,王素格,梁吉业 

要:反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。

关键词反问句;特征抽取;注意力机制;识别模型

引用格式:李旸,吴卓嘉,王素格,梁吉业. 基于语言特征自动获取的反问句识别方法[J]. 中文信息学报, 2020, 34(2): 96-104.

LI Yang, WU Zhuojia, WANG Suge, LIANG Jiye. A Rhetorical Question Identification Method Based on Automatic Language Feature Acquisition[J].Journal of Chinese Information Processing, 2020, 34(2): 96-104.

全文链接:点击下载

✦MaskAE:基于无监督的短文本情感迁移方法

作  者:胡盛伟,李弼程,林孔杰,熊 尧 

要:基于无监督的文本情感迁移技术是通过迁移原句子情感并且保持句子内容不变,生成带有其他情感的新句子的技术。这项技术在两个方面富有挑战性:第一,没有平行语料;第二,文本属性纠缠问题,即当改变句子情感时,通常难以保证句子内容不变。该文提出了一个基于掩码自编码器(mask-autoEncoder,MaskAE)的文本情感迁移方法。首先,利用情感词典来匹配句子中的情感词并用“mask”符号标记它;之后,利用MaskAE 模型生成被标记的情感词,保持其他词不变,从而缓解属性纠缠问题。在模型训练过程中,利用情感判别器去控制生成句子的情感,从而解决没有平行语料问题。实验结果表明,该文模型简单有效,与当前先进模型比较,在自动评价指标和人工评价指标上均有提升,生成的句子在语法和语义正确性上的表现也更好。

关键词自然语言处理;文本生成;情感迁移

引用格式:胡盛伟,李弼程,林孔杰,熊尧. MaskAE: 基于无监督的短文本情感迁移方法[J]. 中文信息学报, 2020, 34(2): 105-112.

HU Shengwei, LI Bicheng, LIN Kongjie, XIONG Yao. MaskAE: Unsupervised Short Text Sentiment Transfer Method[J].Journal of Chinese Information Processing,2020, 34(2): 105-112.

全文链接:点击下载

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK