2

《中文信息学报》新刊概览∣ 2019年第7期(33卷第7期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484320&%3Bidx=1&%3Bsn=9e9ac45d239bf389f5c063d32ea288e6
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2019年第7期(33卷第7期)

Original JCIP 中文信息学报 2019-08-12 07:03
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

综述

✦ 社交媒体话题检测与追踪技术研究综述

作  者:张仰森,段宇翔,黄改娟,蒋玉茹

摘  要:随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。

关键词:话题检测;话题追踪;聚类;主题模型

引用格式:张仰森,段宇翔,黄改娟,蒋玉茹. 社交媒体话题检测与追踪技术研究综述[J]. 中文信息学报, 2019, 33(7): 1-10,30. 

ZHANG Yangsen, DUAN Yuxiang, HUANG Gaijuan, JIANG Yuru. A Survey on Topic Detection and Tracking Methods in Social Media[J].Journal of Chinese Information Processing, 33(7): 1-10,30.

全文链接:点击下载

语言分析与计算

✦ 基于统计语言模型改进的Word2Vec优化策略研究

作  者:张克君,史泰猛,李伟男,钱 榕

摘  要:该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。

关键词:词向量;统计语言模型;TFIDF;文本关键词;CBOW-TFIDF

引用格式:张克君,史泰猛,李伟男,钱榕. 基于统计语言模型改进的Word2Vec优化策略研究[J]. 中文信息学报, 2019, 33(7): 11-19. 

ZHANG Kejun, SHI Taimeng, LI Weinan, QIAN Rong. Word2Vec Optimization Strategy Based on an Improved Statistical Language Model[J].Journal of Chinese Information Processing,33(7): 11-19.

全文链接:点击下载

语言资源建设

✦ 面向中文的修辞结构关系分类体系及无歧义标注方法

作  者:侯圣峦,费超群,张书涵

摘  要:修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。

关键词:自然语言处理;修辞结构理论;修辞结构关系;篇章结构分析

引用格式:侯圣峦,费超群,张书涵. 面向中文的修辞结构关系分类体系及无歧义标注方法[J]. 中文信息学报, 2019, 33(7): 20-30. 

HOU Shengluan, FEI Chaoqun, ZHANG Shuhan. Chinese-Oriented Rhetorical Structure Relation Taxonomy and Unambiguous Annotation Method[J].Journal of Chinese Information Processing, 33(7): 20-30.

全文链接:点击下载

✦ 基于词对关联网络的句子对齐研究

作  者:丁 颖,李军辉,周国栋

摘  要:句子对齐能够为跨语言的自然语言处理任务提供高质量的对齐句子对。受对齐句子对通常包含大量对齐的单词对这种直觉的启发,该文通过探索神经网络框架下词对间的语义相互作用来解决句子对齐问题。特别地,该文提出的词对关联网络通过融合三种相似性度量方法从不同角度来捕获词对之间的语义关系,并进一步融合它们之间的语义关系来确定两个句子是否对齐。在单调和非单调文本上的实验结果表明,该文提出的方法显著提高了句子对齐的性能。

关键词:句子对齐;词对关联网络;神经网络

引用格式:丁颖,李军辉,周国栋. 基于词对关联网络的句子对齐研究[J]. 中文信息学报, 2019, 33(7): 31-39.

DING Ying, LI Junhui, ZHOU Guodong. Word-Pair Relevance Network for Sentence Alignment[J].Journal of Chinese Information Processing, 33(7): 31-39.

全文链接:点击下载

机器翻译

✦ 融合单词翻译的神经机器翻译

作  者:韩 冬,李军辉,周国栋

要:神经机器翻译由于无法完全学习源端单词语义信息,往往造成翻译结果中存在着大量的单词翻译错误。该文提出了一种融入单词翻译用以增强源端信息的神经机器翻译方法。首先使用字典方法找到每个源端单词对应的目标端翻译,然后提出并比较两种不同的方式,用以融合源端单词及其翻译信息: ①Factored 编码器: 单词及其翻译信息直接相加;②Gated 编码器: 通过门机制控制单词翻译信息的输入。基于目前性能最优的基于自注意力机制的神经机器翻译框架Transformer,在中英翻译任务的实验结果表明,与基准系统相比,该文提出的两种融合源端单词译文的方式均能显著提高翻译性能,BLEU值获得了0.81个点的提升。

关键词:单词翻译,Transformer,神经机器翻译

引用格式:韩冬,李军辉,周国栋. 融合单词翻译的神经机器翻译[J]. 中文信息学报, 2019, 33(7): 40-45. 

HAN Dong, LI Junhui, ZHOU Guodong. Modeling Word Translation to Neural Machine Translation[J].Journal of Chinese Information Processing, 33(7): 40-45.

全文链接:点击下载 

✦ 利用单语数据改进神经机器翻译压缩模型的翻译质量

作  者:李 响,刘 洋,陈 伟,刘 群

要:该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了“伪双语数据”的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了“负对数似然—知识蒸馏联合优化”教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。

关键词:神经机器翻译;知识蒸馏;单语数据

引用格式:李响,刘洋,陈伟,刘群. 利用单语数据改进神经机器翻译压缩模型的翻译质量[J]. 中文信息学报, 2019, 33(7): 46-55. 

LI Xiang, LIU Yang, CHEN Wei, LIU Qun. Improving the Translation Quality of Compressed Neural Machine Translation Models with Monolingual Data[J].Journal of Chinese Information Processing, 33(7): 46-55.

全文链接:点击下载 

✦ 基于领域特征的神经机器翻译领域适应方法

作  者:谭 敏,段湘煜,张 民

要:神经机器翻译在资源丰富领域上训练的翻译模型往往在其他资源稀缺领域中表现较差,领域适应是利用资源丰富的领域帮助资源稀少的领域提升翻译质量的一种方法。该文提出基于领域特征的领域适应方法以提升资源稀缺领域的神经机器翻译质量。具体而言,该文尝试构建领域敏感网络以获得领域特有特征,构建领域不敏感网络以获得领域间的共有特征。一个领域判别器被用于区分领域。该文通过训练领域敏感网络使得该领域判别器更易做出准确判断,同时引入对抗机制,使得领域不敏感网络欺骗该领域判别器。最后,提出一种系统集成机制,融合基准神经翻译网络、领域敏感网络、领域不敏感网络以完成神经机器翻译的领域适应。实验结果显示,该方法在中英广播对话领域上和英德口语领域上的翻译效果均有显著提升。

关键词:领域适应;判别器;系统集成

引用格式:谭敏,段湘煜,张民. 基于领域特征的神经机器翻译领域适应方法[J]. 中文信息学报, 2019, 33(7): 56-64.

TAN Min, DUAN Xiangyu, ZHANG Min. Neural Machine Translation Domain Adaptation Based on Domain Features[J].Journal of Chinese Information Processing, 33(7): 56-64.

全文链接:点击下载 

✦ 融合图片主题信息的图片描述翻译

作  者:唐 建,洪 宇,刘梦眙,姚 亮,姚建民

要:图片描述翻译是给定图片及图片在某一语言的描述,利用翻译技术为图片生成目标语言描述的任务。观察发现,不同图片表达的场景往往不同,对应的图片描述具有明显的主题差异性。因此,利用主题信息能够提升翻译效果。然而,图片描述的内容通常较短,无法有效反映其主题。针对该问题,该文提出了一种融合图片主题信息的图片描述翻译方法。对于任意的图片描述对,该方法首先借助相似图片检索技术从维基百科图片库中检索与源图片相似的目标图片,进而利用包含目标图片的文档学习源图片的主题表示。最终,利用训练集中所有图片描述对的主题表示重新学习并获取适应主题的翻译模型。实验结果表明,借助相似图片获取信息量更为丰富的描述文本,并利用文本的主题信息强化翻译模型的方法,能够提高现有统计机器翻译系统的性能,在WMT16测试集上进行的评测显示,翻译质量的BLEU值提升了0.74个百分点。

关键词:图片描述翻译;主题差异性;图片检索

引用格式:唐建,洪宇,刘梦眙,姚亮,姚建民. 融合图片主题信息的图片描述翻译[J]. 中文信息学报, 2019, 33(7): 65-74. 

TANG Jian, HONG Yu, LIU Mengyi, YAO Liang, YAO Jianmin. Fusion of Topic Information for Image Description Translation[J].Journal of Chinese Information Processing, 33(7): 65-74.

全文链接:点击下载 

民族、跨境及周边语言信息处理

✦基于混合策略的藏文虚词识别方法

作  者:拉玛扎西,才智杰,班玛宝 

要:藏文虚词在歧义消解、句法、句型和语义处理等方面起着重要的语法作用。该文在分析传统藏文虚词研究成果的基础上,统计了面向自然语言处理的藏文虚词及特征,提出了基于规则和最大熵模型相结合的藏文虚词识别策略。实验表明,该方法识别藏文虚词的准确率、召回率和F1值分别达98.39%、98.75%、98.57%。

关键词:自然语言处理;藏文虚词;基于规则;最大熵模型

引用格式:拉玛扎西,才智杰,班玛宝. 基于混合策略的藏文虚词识别方法[J]. 中文信息学报, 2019, 33(7): 75-80.

LAMA Zhaxi, CAI Zhijie, BAN Mabao. Tibetan Function Word Recognition Method Based on Hybrid Strategy[J].Journal of Chinese Information Processing, 33(7): 75-80.

全文链接:点击下载

✦藏文词向量相似度和相关性评测集构建

作  者:才智杰,孙茂松,才让卓玛 

要:词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。

关键词:自然语言处理;藏文;词向量;评测集

引用格式:才智杰,孙茂松,才让卓玛. 藏文词向量相似度和相关性评测集构建[J]. 中文信息学报, 2019, 33(7): 81-87,100. 

CAI Zhijie, SUN Maosong, CAI Rangzhuoma. Construction of Tibetan Words Embedding Similarity and Relevance Evaluation Set[J].Journal of Chinese Information Processing, 33(7): 81-87,100.

全文链接:点击下载

信息抽取与文本挖掘

✦探究复述策略对获取实体属性槽“源信息”的意义

作  者:宋 睿,陈 鑫, 洪 宇 

要:实体属性槽填充是一种抽取命名实体特定属性(slot)实例(也称槽值,即filler)的自然语言处理研究。其中,“源信息”特指属性实例的来源,即一段或一句佐证实例正确反映属性的文本片断。观测语料可以发现,实体属性源信息中存在大量同质异构现象,即复述现象。因此,该文结合复述技术与现有知识库,探究了复述识别模型在仅有小规模种子“源信息”的基础上,对于实体属性槽源信息分类的有效性。实验证明,基于树编辑模型的复述识别方法在先验知识较少的情况下,能够很好地捕获实体属性的相关“源信息”。

关键词:槽填充;复述;树编辑模型

引用格式:宋睿,陈鑫,洪宇. 探究复述策略对获取实体属性槽“源信息”的意义[J]. 中文信息学报, 2019, 33(7): 88-100. 

SONG Rui, CHEN Xin, HONG Yu. A Study on Paraphrasing for Entity-Slot Provenance Acquisition[J].Journal of Chinese Information Processing, 33(7): 88-100.

全文链接:点击下载

✦一种基于时间序列预测的重采策略

作  者:史存会,孟 剑,俞晓明,刘 悦,靳小龙,程学旗

要:及时获取新增内容,是采集器的重要衡量指标。基于版块页-内容页架构设计的网络采集器通过定期重采入口的版块页,能够有效地快速识别新产生内容页面并进行扩展。然而获取内容的实时性与对网站访问的友好性存在一定的折中。传统的重采策略关注时效性,而忽略了对网站访问的友好性。该文提出了一种基于时间序列预测的改进重采策略兼顾时效性和友好性。实验表明,该方法可以在保证数据采集实时性的情况下,有效降低访问量,提升对网站访问的友好性。

关键词:网络采集;采集策略;时间序列预测

引用格式:史存会,孟剑,俞晓明,刘悦,靳小龙,程学旗. 一种基于时间序列预测的重采策略[J]. 中文信息学报, 2019, 33(7): 101-109. 

SHI Cunhui, MENG Jian, YU Xiaoming, LIU Yue, JIN Xiaolong, CHENG Xueqi. A Re-crawling Strategy Based on Time Series Prediction[J].Journal of Chinese Information Processing, 33(7): 101-109.

全文链接:点击下载

✦基于语言学扰动的事件检测数据增强方法

作  者:陆垚杰,林鸿宇,韩先培,孙 乐

要:近年来,深度学习在事件检测领域取得了长足进展。但是,现有方法通常受制于事件检测标注数据的规模和训练阶段的不稳定性。针对上述问题,本文提出了基于语言学扰动的事件检测数据增强方法,从语法和语义两个角度生成伪数据来提升事件检测的性能。为了有效的利用生成的伪数据,该文探索了数据增加和多实例学习两个训练策略。在KBP 2017事件检测数据集上的实验验证了我们方法的有效性。此外,在人工构造的少量ACE2005数据集上的实验结果证明该文方法可以大幅度提升小数据情况下的模型学习性能。

关键词:事件检测;数据增强;多实例学习

引用格式:陆垚杰,林鸿宇,韩先培,孙乐. 基于语言学扰动的事件检测数据增强方法[J]. 中文信息学报, 2019, 33(7): 110-117. 

LU Yaojie, LIN Hongyu, HAN Xianpei, SUN Le. Linguistic Perturbation Based Data Augmentation for Event Detection[J].Journal of Chinese Information Processing, 33(7): 110-117.

全文链接:点击下载

✦基于轨迹时空词向量的用户年龄特征识别

作  者:吴 浩,张威强,张朋柱

要:用户移动上网访问基站的轨迹数据从时间和空间上反映了用户的生活习惯和行为模式。时间和空间信息同时产生不应分别考虑。因此,该文在传统的TF-IDF方法基础上提出了与时间相关的TFT-IDFT方法,用以提取轨迹点语义信息,进而采用word2vec方法将轨迹数据转化为文档分析。提取包含位置信息和语义信息的轨迹时空词向量,在此基础上建立多分类模型对用户所属年龄段进行识别。实验结果表明,改进的TFT-IDFT方法在提取轨迹语义时更具合理性,且基于此方法构建的轨迹时空词向量应用于分类模型,对用户所属年龄阶段的识别效果更好。

关键词:语义轨迹;词频—逆文本频率;词向量;Word2vec;分类

引用格式:吴浩,张威强,张朋柱. 基于轨迹时空词向量的用户年龄特征识别[J]. 中文信息学报, 2019, 33(7): 118-127. 

WU Hao, ZHANG Weiqiang, ZHANG Pengzhu. User Age Group Recognition Based on Spatio-Temporal Word Embedding of Trajectory[J].Journal of Chinese Information Processing, 33(7): 118-127.

全文链接:点击下载

情感分析与社会计算

基于相似主题和HITS的微博用户推荐算法研究

作  者:王嵘冰,徐红艳,冯 勇,安维凯

要:为了准确地为微博用户推荐相近兴趣领域的重要用户,有效提高用户对微博平台的依赖度。该文对传统的HITS算法进行了改进:通过分析微博用户社交网络结构,运用改进算法将微博用户划分为3类,在微博主题相似度计算中引入用户的权威度和中心度,最后根据用户类别进行微博用户推荐。实验中,使用爬取的微博数据对传统的推荐算法和该文的改进算法进行对比实验,由于所提算法在分析过程中考虑了用户结构信息、用户的权威度与中心度等多种因素,因而在准确率、召回率、F1值上均有明显提高。

关键词:微博用户推荐;HITS;权威度;中心度;主题相似度

引用格式:王嵘冰,徐红艳,冯勇,安维凯. 基于相似主题和HITS的微博用户推荐算法研究[J]. 中文信息学报, 2019, 33(7): 128-135. 

WANG Rongbing, XU Hongyan, FENG Yong, AN Weikai. Microblog User Recommendation Algorithm Based on Similar Topics and HITS[J].Journal of Chinese Information Processing, 33(7): 128-135.

全文链接:点击下载

文字处理

✦ ISO/IEC 10646国际编码标准下的香港电脑汉字编码及字形原则

作  者:熊 丹,陆 勤

要:在ISO/IEC 10646国际编码标准中,香港使用的汉字载于H列。该文介绍了如何在ISO/IEC 10646国际编码标准下进一步完善香港电脑汉字的扩展机制及H列字符字源资料的编码方案。由于目前H列的很多字形并未完全反映香港的实际习惯写法,因此香港制定了一套适用于香港常用写法的电脑汉字参考字形,该文介绍了此套字形的原则。

关键词:电脑汉字编码;字形;字符集

引用格式:熊丹,陆勤. ISO/IEC 10646国际编码标准下的香港电脑汉字编码及字形原则[J]. 中文信息学报, 2019, 33(7): 136-142. 

XIONG Dan, LU Qin. Character Encoding and Glyph Principles for Hong Kong's Chinese Computer Systems under the ISO/IEC 10646[J].Journal of Chinese Information Processing, 33(7): 136-142.

全文链接:点击下载

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK