7

《中文信息学报》新刊概览∣ 2021年第7期(35卷第7期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484920&%3Bidx=1&%3Bsn=87ffc45fe18f3ac26a644535551d8023
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2021年第7期(35卷第7期)

Original JCIP 中文信息学报 2021-08-11 07:38
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

综述

✦ 问题生成研究综述

作  者:吴云芳,张仰森

摘  要:问题生成是给定文本,自动生成内容通顺、语义相关的自然语言问题。问题生成可应用于教育领域的阅读理解、辅助问答系统和对话系统,因此近年来引起了研究者的广泛关注和兴趣。该文对问题生成的相关研究进行了综述。首先阐释了问题生成的研究意义与应用场景,继而简略概述了基于规则的问题生成方法,然后从输入文本是句子/段落、有/无答案信息等不同角度全面阐述了基于神经网络的问题生成模型。该文还介绍了问题生成的评价方法,分析讨论了现有工作的不足,并展望了未来可能的研究方向。

关键词:问题生成;机器阅读理解;神经网络模型

引用格式:吴云芳,张仰森. 问题生成研究综述[J]. 中文信息学报, 2021, 35(7): 1-9.

WU Yunfang, ZHANG Yangsen. A Survey of Question Generation[J].Journal of Chinese Information Processing,2021,  35(7): 1-9.

全文链接:点击下载

✦ 自然语言预训练模型知识增强方法综述

作  者:孙 毅,裘杭萍,郑 雨,张超然,郝 超

摘  要:将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径。当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。该文针对预训练词嵌入和预训练上下文编码器两个预训练模型的发展阶段,分析了它们的特点和缺陷,阐述了知识增强的相关概念,提出了预训练词嵌入知识增强的分类方法,将其分为四类:词嵌入改造、层次化编解码过程、优化注意力和引入知识记忆。将预训练上下文编码器的知识增强方法分为任务特定和任务通用两大类,并根据引入知识的显隐性对其中任务通用的知识增强方法进行了进一步的细分。该文通过分析预训练模型知识增强方法的类型和特点,为实现人机混合的人工智能提供了模式和算法上的参考依据。

关键词:预训练语言模型;知识增强;预训练词嵌入;预训练上下文编码器

引用格式:孙毅,裘杭萍,郑雨,张超然,郝超. 自然语言预训练模型知识增强方法综述[J]. 中文信息学报, 2021, 35(7): 10-29.
SUN Yi, QIU Hangping, ZHENG Yu, ZHANG Chaoran, HAO Chao. Knowledge Enhancement for Pre-trained Language Models: A Survey[J].Journal of Chinese Information Processing,2021,  35(7): 10-29.

全文链接:点击下载

语言分析与计算

融合词义信息的文本蕴涵识别方法

作  者:杜倩龙,宗成庆,苏克毅

摘  要:文本蕴涵识别是对两个文本之间语义关系的有向推理,而词汇的词义对理解文本的语义以及推理文本之间的语义蕴涵关系有着重要作用。因此,为了有效利用词汇的词义信息推断文本之间的语义蕴涵关系,该文提出一种融合词义信息的文本蕴涵识别方法。该方法首次提出将原始的词汇转化为对应的目标词义,然后利用词汇的词义信息改善文本的语义表示和文本间语义关系的推理。实验表明,该文所提出的方法可以有效改善文本间语义关系的推理,从而提升文本蕴涵识别的准确率。

关键词:词义推断;文本蕴涵识别;语义推理

引用格式:杜倩龙,宗成庆,苏克毅. 融合词义信息的文本蕴涵识别方法[J]. 中文信息学报, 2021, 35(7): 30-40. 

DU Qianlong, ZONG Chengqing, SU Keh-Yih. Incorporating Word Sense Information for Recognizing Textual Entailment[J].Journal of Chinese Information Processing,2021,  35(7): 30-40.

全文链接:点击下载

语言资源建设

✦ 基于大规模语料库的古文词典构建及分词技术研究

作  者:邢付贵,朱廷劭

摘  要:古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。

关键词:古汉语分词; 大数据; 语料库

引用格式:邢付贵,朱廷劭. 基于大规模语料库的古文词典构建及分词技术研究[J]. 中文信息学报, 2021, 35(7): 41-46.
XING Fugui, ZHU Tingshao. Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation[J].Journal of Chinese Information Processing,2021,  35(7):41-46.

全文链接:点击下载

✦ 基于半监督的汉缅双语词典构建方法

作  者:毛存礼,陆 杉,王红斌,余正涛,吴 霞,王振晗

摘  要:汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强。实验结果表明,该文提出的方法相较于基线方法有明显的性能提升。

关键词:汉缅双语;种子词典;迭代自学习;预训练语言模型;上下文特征;半监督

引用格式:毛存礼,陆杉,王红斌,余正涛,吴霞,王振晗. 基于半监督的汉缅双语词典构建方法[J]. 中文信息学报, 2021, 35(7): 47-53.
MAO Cunli, LU Shan, WANG Hongbin, YU Zhengtao, WU Xia, WANG Zhenhan.Semi-supervised Chinese-Burmese Bilingual Dictionary Construction[J].Journal of Chinese Information Processing,2021,  35(7): 47-53.

全文链接:点击下载

机器翻译

✦一种面向句子的汉英口语翻译自动评分方法

作  者:李心广,陈 帅,龙晓岚

要:该文提出一种面向句子的汉英口语翻译自动评分方法,选取语义关键词、句子大意和口语流利度作为评分的主要参数。为了提高关键词评分的准确度,该文使用同义词辨析方法,识别考生答题关键词中的同义词;在句子层面,使用可伸展递归自编码(unfolding recursive auto-encoder,URAE)神经网络模型分析考生对句子大意的翻译;最后基于语速(tempo/rate)和语音的分布情况对口语流利度进行评分。综合三种参量加权评分,得到最后翻译质量的评分。实验结果表明,采用该文方法与人工评分结果具有较好的一致性,达到了预期设计目标。

关键词:汉英口语翻译自动评分;同义词辨析;URAE神经网络; 口语流利度

引用格式:李心广,陈帅,龙晓岚. 一种面向句子的汉英口语翻译自动评分方法[J]. 中文信息学报, 2021, 35(7): 54-62.
LI Xinguang, CHEN Shuai, LONG Xiaolan. Sentence Based Automatic Scoring Method for Chinese-English Oral Translation[J]. Journal of Chinese Information Processing, 2021,  35(7): 54-62.

全文链接:点击下载 

民族、跨境及周边语言信息处理 

✦ 基于多卷积核DPCNN的维吾尔语文本分类联合模型

作  者:加米拉·吾守尔,吴迪,王路路,古丽尼格尔·阿不都外力,买合木提·买买提,吐尔根·依布拉音

要:由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文本语义信息,最后融合两种模型提取到的信息完成文本分类任务。为验证该模型的有效性,该文分别采用中文、英文和维吾尔文短、长文本数据集进行实验,实验结果表明,该模型在多个分类任务中取得的性能都高于现有主流深度学习模型,验证了该模型在不同语种、语义表达稀疏和语义丰富各种情况下的鲁棒性。

关键词维吾尔语;文本分类;多卷积核DPCNN;Bi-LSTM+CNN

引用格式:加米拉·吾守尔,吴迪,王路路,古丽尼格尔·阿不都外力买合木提·买买提,吐尔根·依布拉音. 基于多卷积核DPCNN的维吾尔语文本分类联合模型[J]. 中文信息学报, 2021, 35(7): 63-71.
JIAMILA Wushouer, WU Di, WANG Lulu, GULINIGEER Abudouwaili, MAIHEMUTI Maimaiti,TUERGEN Yibulayin. Uyghur Text Categorization Joint Model Based on Multi-convolution Kernel DPCNN[J].Journal of Chinese Information Processing,2021,  35(7): 63-71.

全文链接:点击下载

✦面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例

作  者:崔志远,赵尔平,雒伟群,王 伟,孙 浩

要:专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力机制学习字向量的上下文语义特征及它们之间的关系特征;为了让模型关注重点字向量之间的依赖关系及切分点信息,引入多头注意力机制,在不考虑字向量之间距离的前提下并行计算重要字向量与其它字向量的相关度,关注重要字对模型的贡献度;然后使用条件随机场学习词位标签,输出最优分词序列;最后构建领域词典进一步提高分词效果。在西藏畜牧业领域语料库进行实验,结果证明,该模型与BiLSTM-CRF等经典模型比较,精确率、召回率、F1值分别提高了3.93%、5.3%、3.63%,有效改善了西藏畜牧业领域语料的分词效果。

关键词中文分词;多头注意力机制;双向门控循环神经网络;西藏畜牧业语料

引用格式:崔志远,赵尔平,雒伟群,王伟,孙浩. 面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例[J]. 中文信息学报, 2021, 35(7): 72-80.
CUI Zhiyuan, ZHAO Erping, LUO Weiqun, WANG Wei, SUN Hao. Multi-Head Attention for Domian Specific Chinese Word Segmentation Model — A Case Study on Tibet’s Animal Husbandry[J].Journal of Chinese Information Processing,2021,  35(7): 72-80.

全文链接:点击下载

信息抽取与文本挖掘

✦ 基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告

作  者:王炳乾,宿绍勋,梁天新

摘  要:事件抽取(event extraction, EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术,是智能风控、智能投研、舆情监测等人工智能应用的重要技术基础。该文提出一种端到端的多标签指针网络事件抽取方法,并将事件检测任务融入到事件元素识别任务中,达到同时抽取事件元素及事件类型的目的。该方法避免了传统管道式方法存在的错误级联和任务割裂问题,同时也解决了事件抽取中存在的角色重叠和元素重叠问题。该文提出的事件抽取方法在2020语言与智能技术竞赛——事件抽取任务测试集上中取得85.9%的F1值。

关键词:事件抽取;指针网络;BERT;角色重叠;元素重叠

引用格式:王炳乾,宿绍勋,梁天新. 基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告[J]. 中文信息学报, 2021, 35(7): 81-88.
WANG Bingqian, SU Shaoxun, LIANG Tianxin. BERT Based Multi-layer Label Pointer Network for Event Extraction[J].Journal of Chinese Information Processing,2021, 35(7): 81-88.

全文链接:点击下载

✦ 基于双通道图神经网络的小样本文本分类

作  者:王阳刚,邱锡鹏,黄萱菁,王一宁,李云辉

摘  要:小样本文本分类任务同时面临两个主要问题: ①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化。近期工作中,利用图神经网络建模样本的全局信息表示(full context embedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且特征易混淆,图神经网络往往出现过度平滑问题(over-smoothing)。该文提出了一种双通道图神经网络,在建模样本的全局特征的同时,充分利用标签传播机制,通过共享两通道的信息传播矩阵使得监督信息有效约束了图神经网络迭代过程。与基线的图神经网络相比,该方法在FewRel数据集上平均取得了1.51%的准确率提升;在ARSC数据集上取得了11.1%的准确率提升。

关键词:小样本学习;图神经网络;文本分类

引用格式:王阳刚,邱锡鹏,黄萱菁,王一宁,李云辉. 基于双通道图神经网络的小样本文本分类[J]. 中文信息学报, 2021, 35(7): 89-97,108.

WANG Yanggang, QIU Xipeng, HUANG Xuanjing, WANG Yining, LI Yunhui. Few-shot Text Classification with Dual Channel Graph Neural Networks[J].Journal of Chinese Information Processing,2021,  35(7): 89-97,108.

全文链接:点击下载

✦ 融合传播影响力的热点事件时序摘要研究

作  者:罗 芳,汪竞航,张宇恒,何道森,蒲秋梅

摘  要:为了从海量的热点事件社交媒体文本流中提取时序摘要,辅助用户快速获取热点事件的演化发展概况,该文在分析热点事件发展阶段的基础上,充分挖掘社交文本的时间特征和传播特征,提出了融合社交传播影响力的热点事件时序摘要方法。该方法抽取的摘要能完整反映事件发展演化过程,内容描述更合乎客观事实,同时在一定程度上解决了社交文本非结构化问题对文本句子权重度量造成的不利影响。实验结果显示,当时间与传播特征权重比值达到0.4时,该方法得到的摘要结果的ROUGE评测值达到最佳,ROUGE-1最优达到44.23%,ROUGE-2最优达到34.78%,ROUGE-S4最优达到27.86%。实验结果表明,基于时间线的文本组织能有效追踪事件发展演化过程,融入时序信息和传播影响力后的时序摘要更能提升热点事件概况的新颖度和相关度。

关键词:热点事件;时序摘要;演化阶段;时序特征;传播影响力

引用格式:罗芳,汪竞航,张宇恒,何道森,蒲秋梅. 融合传播影响力的热点事件时序摘要研究[J]. 中文信息学报, 2021, 35(7): 98-108.
LUO Fang, WANG Jinghang, ZHANG Yuheng, HE Daosen, PU Qiumei. Social Influence Enhanced Temporal Summarization for Hot Events[J].Journal of Chinese Information Processing,2021,  35(7):98-108.

全文链接:点击下载

机器阅读理解

✦ 基于多任务联合训练的法律文本机器阅读理解模型

作  者:李芳芳,任星凯,毛星亮,林中尧,刘熙尧 

摘  要:随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点。该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型。该模型将阅读理解任务划分为四个子模块:文本编码模块、答案抽取模块、答案分类模块和支持句子判别模块。此外,该文提出了一种基于TF-IDF的“问题-文章句子”相似度匹配的数据增强方法。该方法对中国法研杯2019的训练集进行重新标注,实现数据增强。通过以上方法,最终该集成模型在2020中国法研杯机器阅读理解任务中联合F1值为74.49,取得全国第一名。

关键词:中国法研杯;机器阅读理解;多任务联合训练

引用格式:李芳芳,任星凯,毛星亮,林中尧,刘熙尧. 基于多任务联合训练的法律文本机器阅读理解模型[J]. 中文信息学报, 2021, 35(7): 109-117,125.

LI Fangfang, REN Xingkai, MAO Xingliang, LIN Zhongyao, LIU Xiyao. A Reading Comprehension Model for Judical Texts Based on Multi Task Joint Training[J].Journal of Chinese Information Processing,2021,  35(7): 109-117,125.

全文链接:点击下载

✦ 面向中文成语的阅读理解方法研究

作  者:徐家伟,刘瑞芳,高 升,李 思

摘  要:在自然语言处理领域,全局注意力机制通过考虑编码器的所有隐藏状态来捕获信息,从而帮助预测结果。然而在理解汉语成语这种复杂的语言现象时,模型往往会因特定语境的干扰而产生错误的决定和认知。因此,为了使模型更好地感知成语在不同语境下的语法功能,该文提出了一种增强型的全局注意力机制,通过对每个位置空间产生额外的注意因子来调整原始的全局注意力,最终提高了模型对特定语义的学习能力。该文将增强型全局注意力机制与BERT语言模型相结合,设计了一个用于完形填空任务的模型,并在最近发布的中文成语完形填空数据集ChID上进行了实验。结果表明,相比于传统的BERT模型和全局注意模型,该模型取得的效果更优。

关键词:阅读理解;分类;注意力机制;完形填空

引用格式:徐家伟,刘瑞芳,高升,李思. 面向中文成语的阅读理解方法研究[J]. 中文信息学报, 2021, 35(7): 118-125.

XU Jiawei, LIURuifang, GAO Sheng, LI Si. An Approach to Chinese Idioms Reading Comprehension[J].Journalof Chinese Information Processing,2021,  35(7): 118-125.

全文链接:点击下载

情感分析与社会计算

✦ 基于特征双重蒸馏网络的方面级情感分析

作  者:宋 威,温子健

摘  要:目前方面级情感分析方法主要利用注意力机制来实现句子与方面词的交互,然而该机制容易导致方面词与句子中各词的错误搭配,引入额外噪声。针对此问题,该文提出了一种基于特征双重蒸馏网络的方面级情感分析方法。首先利用BiLSTM提取句子中各词的上下文语义特征,并结合基于上下文的方面词嵌入方法,获取方面词的语义特征。进一步地,利用门控机制构建双重蒸馏门,通过初步蒸馏与精细蒸馏两个过程实现句子与方面词的语义特征交互,获取与方面词相关的句子情感语义特征。最终利用Softmax对获取的情感语义特征进行情感分类。在通用的Laptop、Restaurant和Twitter数据集上进行实验,结果表明,该方法的准确率分别达到79.26%、84.53%和75.30%,宏平均F1值分别达到75.77%、75.63%和73.21%,优于目前主流方法。

关键词:方面级情感分析;门控机制;双重蒸馏;神经网络

引用格式:宋威,温子健. 基于特征双重蒸馏网络的方面级情感分析[J]. 中文信息学报, 2021, 35(7): 126-133.
SONG Wei, WEN Zijian. Feature Dual Distillation Network for Aspect-BasedSentiment Analysis[J].Journal of Chinese Information Processing,2021,  35(7): 126-133.

全文链接:点击下载

自然语言理解与生成

✦ 基于检索结果融合机制的对话生成模型

作  者:刘喜凯,林鸿飞,徐 博,杨 亮,任玉

摘  要:对话生成模型是对话系统中十分重要的组件。传统的对话生成模型仅利用用户的输入信息生成回复,这导致在生成过程中常会出现无意义的万能回复。最近有工作尝试将检索的方法融入生成模型从而提高模型的生成质量,但这些方法往往将重点放在如何编辑检索结果上,没有考虑检索结果与用户查询之间的语义空间差别。为解决这一问题,该文提出了基于检索结果融合的对话生成模型。模型首先利用双向长短时记忆网络对检索结果进行编码,并提出了具有融合机制的长短时记忆网络(fusion-LSTM)。该机制将检索结果在模型内部与对话文本相结合,以更好地将检索到的信息融入到生成模型中。实验结果表明,该方法在自动评价指标和人工评价指标中都明显优于基线方法。

关键词:对话生成;信息检索;长短时记忆网络;融合机制

引用格式:刘喜凯,林鸿飞,徐博,杨亮,任玉琪. 基于检索结果融合机制的对话生成模型[J]. 中文信息学报, 2021, 35(7): 134-142.
LIU Xikai, LIN Hongfei, XU Bo, YANG Liang, REN Yuqi. Response Generation by Retrieved Response Fusion Mechanism[J].Journal of Chinese Information Processing,2021, 35(7): 134-142.

全文链接:点击下载

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK