12

《中文信息学报》新刊概览∣ 2021年第1期(35卷第1期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484848&%3Bidx=1&%3Bsn=b1408b2d89470f59e2e230608985649c
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2021年第1期(35卷第1期)

JCIP 中文信息学报 2021-02-07 07:34
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

语言分析与计算

✦ 基于LSTM的层次化篇章依存分析方法

作  者:贾延延,程学旗,冯 键

摘  要:在长距离依赖场景,篇章依存分析的效果欠佳,传统分析方法通常设计大量特征模板来缓解这一瓶颈问题。该文提出一种层次化篇章依存分析方法,减少了篇章分析器所需一次性处理的篇章分析单元的数量,从而缩短了分析器所处理的依存对之间的距离;并通过长短时记忆模型直接处理篇章分析单元中的序列信息,避免了特征提取。在RST语料库上进行实验,结果表明,即使在不提取任何特征的情况下,层次化篇章依存分析方法的分析效果依然优于同类深度学习模型在提取必要特征后的实验效果。

关键词:篇章;依存分析;LSTM

引用格式:贾延延,程学旗,冯键. 基于LSTM的层次化篇章依存分析方法[J].中文信息学报, 2021, 35(1): 1-8.
JIA Yanyan, CHENG Xueqi, FENG Jian. A Hierarchical Discourse Dependency Parsing Method with Long Short-Term Memory[J]. Journal of Chinese Information Processing, 2020, 35(1): 1-8.

全文链接:点击下载

✦ 基于树形语义框架的神经语义解析方法

作  者:赵睿卓,高金华,孙晓茜,徐 力,沈华伟,程学旗

摘  要:语义解析的目标是将自然语言表达映射为机器可理解的逻辑表达,该任务的关键挑战在于难以刻画自然语言中蕴含的组合语义。目前,结合深度神经网络模型的语义解析方法已经成为该领域的主流方法,该类方法通常采用编码器—解码器框架,通过设计树形结构的解码器或者在解码器中添加语法限制,从语法层面上提升逻辑表达生成的准确率。与现有的神经语义解析方法不同,该文从语义建模角度出发,以语义框架作为中间形式,通过自顶向下的生成方式,显式地建模自然语言表达中蕴含的层次化语义结构。模型先根据自然语言输入,自顶向下地生成语义框架,再将语义框架表示融入到逻辑表达的生成过程中。三个数据集上的实验结果表明,该文提出的模型能更准确地生成语义框架,并且在语义解析任务中取得更好的效果。

关键词:神经语义解析;层次化语义结构;树形语义框架

引用格式:赵睿卓,高金华,孙晓茜,徐力,沈华伟,程学旗. 基于树形语义框架的神经语义解析方法[J]. 中文信息学报, 2021, 35(1): 9-16.
ZHAO Ruizhuo, GAO Jinhua, SUN Xiaoqian, XU Li, SHEN Huawei, CHENG Xueqi.Learning Tree-structured Sketch for Neural Semantic Parsing[J].Journal of Chinese Information Processing,2020,35(1): 9-16.

全文链接:点击下载

✦ 中文词汇增长研究

作  者:王 珊,王会珍

摘  要:词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的相互关系。该文首先对语料进行了分词,然后根据曲线拟合效果选择拟合更好的Heaps模型进行预测。以中国的“五年计划”作为基础时间周期,对各周期模型预测值与现实观测值的差值进行分析,并与随机打乱后的文本计算结果进行对比,进一步验证了实验的结果。研究发现随着时间变化,词汇增长呈现出一定的倾向性:在深化改革、新政策出台等时期,一般需要更多的词语来描述,此时观测值高于预测值,而在政策相对稳定的时期,对原有词汇的使用较多,此时观测值低于预测值。该文以中文语料作为研究对象,分析其历时变化,能够为中文词汇增长研究提供借鉴。

关键词:中文;词汇增长;词汇丰富度;TTR;Heaps模型

引用格式:王珊,王会珍. 中文词汇增长研究[J]. 中文信息学报, 2021, 35(1): 17-24.
WANG Shan, WANG Huizhen. A Study of Chinese Vocabulary Growth[J].Journal of Chinese Information Processing,2020,35(1): 17-24.

全文链接:点击下载

语言资源建设

✦ 基于百科语料的中英文双语词典提取

作  者:王 星,单力秋,侯 磊,于济凡,陈 吉,陶明阳

摘  要:随双语词典是跨语言自然语言处理中一项非常重要的资源。目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题。相比之下,基于部分双语语料的方法由于利用的是新闻或者百科知识,故可以很好地解决这个问题,然而目前基于部分双语语料的方法主要集中在对文本内容的提取上,缺乏对文本内容以外部分的提取。针对此不足,该文以中英文两种语言为例,提出了一种基于百科语料的中英文双语词典的提取方法。该方法是在对文本内容提取的基础上结合在线百科的结构特点,分别用五种不同的方法对百科语料进行提取,综合查重后得到的双语信息数量为969 308条。与以往的基于部分双语语料的双语词典的提取方法相比,该方法在在线百科语料上的提取数量提高了170.75%。

关键词:双语词典提取;跨语言自然语言处理;部分双语语料

引用格式:王星,单力秋,侯磊,于济凡,陈吉,陶明阳. 基于百科语料的中英文双语词典提取[J]. 中文信息学报, 2021, 35(1): 25-33.
WANG Xing, SHAN Liqiu, HOU Lei, YU Jifan, CHEN Ji, TAO Mingyang. Chinese English Bilingual Dictionary Extraction Based on Encyclopedia Corpus[J].Journal of Chinese Information Processing,2020,35(1): 25-33.

全文链接:点击下载

✦ 基于大规模语料库的现代汉语动宾搭配知识库构建

作  者:王贵荣,饶高琦,荀恩东

摘  要:汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言处理提供基础知识,同时也为语言本体研究、语言教学等提供大量实例。该文首先从语言本体的角度出发,总结了动宾搭配的知识体系,并根据该体系制定相应形式化检索式140个,从BCC语料库中抽取动宾搭配知识,并对抽取结果进行了初步消歧,最终获得动宾搭配300万对,形成动宾搭配知识库。

关键词:动宾搭配;知识抽取;知识库;BCC语料库

引用格式:王贵荣,饶高琦,荀恩东. 基于大规模语料库的现代汉语动宾搭配知识库构建[J]. 中文信息学报, 2021, 35(1): 34-42,53.
WANG Guirong, RAO Gaoqi, XUN Endong. Construction of Verb-object Knowledge Base from BCC Corpus[J].Journal of Chinese Information Processing,2020,35(1):34-42,53.

全文链接:点击下载

机器翻译知识表示与知识获取

✦ 一种融入实体描述的自适应知识表示模型

作  者:翟社平,王书桓,尚定蓉,董苏苏

要:知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了一种基于实体描述的联合表示模型(joint representation based on entity descriptions,JRED)。具体来说,模型引入位置向量和注意力机制设计了Attention_Bi-LSTM文本编码器,可以根据不同的关系从文本描述中动态选择最相关的信息。同时,采用一种自适应表示方法,为每个特征维度区别地赋予权重,并以此方法为基础通过门控机制共同学习文本和结构的联合表示。该文在链接预测和三元组分类任务上评估该模型,实验结果表明,模型在各项指标上均取得了很大的提升,尤其在Mean Rank指标上有明显优势。

关键词:知识表示;实体描述;自适应表示

引用格式:翟社平,王书桓,尚定蓉,董苏苏. 一种融入实体描述的自适应知识表示模型[J]. 中文信息学报, 2021, 35(1): 43-53.
ZHAI Sheping, WANG Shuhuan, SHANG Dingrong, DONG Susu. An Adaptive Model for Knowledge Representation With Entity Description[J].Journal of Chinese Information Processing,2020,35(1): 43-53.

全文链接:点击下载 

✦ 结合平移关系嵌入和CNN的知识图谱补全

作  者:陈新元,谢晟祎,陈庆强,刘 羽

要:为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithm based on transitional relation embedding via CNN)算法,将三元组的实体和关系映射至低维向量空间,并将不同的关系特征与头/尾实体融合,将原始三元组和融合三元组的嵌入表示合并为6列k维矩阵,使用卷积神经网络(CNN)降低参数规模,提取特征后拼接、赋权并评分。链路预测和三元组分类的实验结果表明,ATREC在较大规模数据集和复杂关系上相较主流算法有一定性能提升。

关键词:知识图谱补全;知识表示;CNN;翻译机制;链路预测

引用格式:陈新元,谢晟祎,陈庆强,刘羽. 结合平移关系嵌入和CNN的知识图谱补全[J]. 中文信息学报, 2021, 35(1): 54-63.
CHEN Xinyuan, XIE Shengyi, CHEN Qingqiang, LIU Yu. Knowledge Base Completion Based on Transitional Relation Embedding via CNN[J].Journal of Chinese Information Processing,2020,35(1): 54-63.

全文链接:点击下载 

信息抽取与文本挖掘

✦基于序列模型的单文档标题生成研究

作  者:焦利颖,郭 岩,刘 悦,俞晓明,程学旗

要:针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。

关键词单文档;标题生成;序列模型

引用格式:焦利颖,郭岩,刘悦,俞晓明,程学旗. 基于序列模型的单文档标题生成研究[J]. 中文信息学报, 2021, 35(1): 64-71.
JIAO Liying, GUO Yan, LIU Yue, YU Xiaoming, CHENG Xueqi. A Sequence Model for Single Document Headline Generation[J]. Journal of Chinese Information Processing, 2020, 35(1): 64-71.

全文链接:点击下载

✦一种基于门控空洞卷积的高效中文命名实体识别方法

作  者:王笑月,李 茹,段 菲

要:近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用。普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险。针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制,以强化有效信息,降低无效信息的影响,同时改善梯度消失问题;针对字向量表示能力有限的问题,该文还将字向量与其所属词的位置信息融合,以丰富文本特征。为验证所提出方法的有效性,在MSRA数据集以及Sina Resume数据集上进行了实验,F1值分别达到了92.97%与94.98%。与传统基于Bi-LSTM-CRF的命名实体识别模型相比,模型训练速度提升5~6倍,且表现优于一般的RNN架构。

关键词空洞卷积;门控机制;中文命名实体识别

引用格式:王笑月,李茹,段菲. 一种基于门控空洞卷积的高效中文命名实体识别方法[J]. 中文信息学报, 2021, 35(1): 72-80.
WANG Xiaoyue, LI Ru, DUAN Fei. An Efficient Chinese Named Entity Recognition Method Based on Gated-Dilated Convolution[J]. Journal of Chinese Information Processing, 2020, 35(1): 72-80.

全文链接:点击下载

✦基于词性特征的明喻识别及要素抽取方法

作  者:赵琳玲,王素格,陈 鑫,王 典,张兆滨

要:比喻是一种利用事物之间的相似点建立关系的修辞方式。明喻是比喻中最常见的形式,具有明显的喻词,例如“像”,用于关联本体和喻体。近年来高考语文散文类鉴赏题中多有考查明喻句的试题,为了解答此类鉴赏题,需要识别比喻句中的本体和喻体要素。该文提出了基于词性特征的明喻识别及要素抽取方法。首先将句子中词向量化表示与词性特征向量化表示进行融合,将融合后的向量输入到BiLSTM中进行训练,然后利用CRF解码出全局最优标注序列;最后得到明喻识别和要素抽取的结果。公开数据集上的实验结果表明,该方法优于已有的单任务方法;同时也将该文方法应用于北京高考语文鉴赏题中比喻句的识别与要素抽取,验证了方法的可行性。

关键词比喻;本体;喻体;BiLSTM;CRF

引用格式:赵琳玲,王素格,陈鑫,王典,张兆滨. 基于词性特征的明喻识别及要素抽取方法[J]. 中文信息学报, 2021, 35(1): 81-87.
ZHAO Linling, WANG Suge, CHEN Xin, WANG Dian, ZHANG Zhaobin. Part-of-Speech Based Simile Recognition and Component Extraction[J].Journal of Chinese Information Processing,2020,35(1): 81-87.

全文链接:点击下载

✦融合主题模型及双语词向量的汉缅双语可比文档获取方法

作  者:李训宇,毛存礼,余正涛,高盛祥,王振晗,张亚飞

要:缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。

关键词主题模型;双语词向量;文档相似度;汉语—缅甸语;双语可比文档

引用格式:李训宇,毛存礼,余正涛,高盛祥,王振晗,张亚飞. 融合主题模型及双语词向量的汉缅双语可比文档获取方法[J]. 中文信息学报, 2021, 35(1): 88-95.
LI Xunyu, MAO Cunli, YU Zhengtao, GAO Shengxiang, WANG Zhenhan, ZHANG Yafei.Chinese-Burmese Comparable Document Acquisition Based on Topic Model and Bilingual Word Embedding[J]. Journal of Chinese Information Processing, 2020, 35(1):88-95.

全文链接:点击下载

情感分析与社会计算

✦ 基于生活日志的情绪识别

作  者:王鹏宇,张 敏,马为之,刘奕群,马少平

摘  要:抑郁症日益成为影响现代人生活幸福程度的重要因素。实时有效地识别用户情绪的方法对于抑郁症潜在患者的发现和治疗十分有意义。用户情绪的状态及变化会体现在其生活日志数据上。该文从使用可穿戴设备收集的用户生活日志数据出发,对数据进行了特征方面的分析;进一步地,使用以回归树为弱学习器的集成学习模型,设计了使用全部数据、仅用户自身数据以及仅他人数据进行训练的三组实验构成的对比实验框架,以比较使用不同用户数据对识别结果的影响。实验结果表明,基于生活日志数据的集成学习模型可以有效地识别用户的情绪状态。同时,基于实验结果提出了用户认知不一致的猜想,对于心理学上的抑郁分析也有一定的启发作用。该工作是目前所知第一个利用用户生活日志信息进行情绪识别以及抑郁症患者分析的工作,为后续进一步扩大实验规模和改良实验设计提供了思路。

关键词:生活日志数据;情绪识别;集成学习

引用格式:王鹏宇,张敏,马为之,刘奕群,马少平. 基于生活日志的情绪识别[J]. 中文信息学报, 2021, 35(1): 96-103,112.
WANG Pengyu, ZHANG Min, MA Weizhi, LIU Yiqun, MA Shaoping. Emotion Recognition Based on Life Log Data[J]. Journal of Chinese Information Processing, 2020, 35(1):96-103,112.

全文链接:点击下载

✦ 基于神经网络融合标签相关性的多标签情感预测研究

作  者:陈 玮,林雪健,尹 钟

摘  要:近年来,多标签分类任务(MLC)受到了广泛关注。传统的情感预测被视为一种单标签的监督学习,而忽视了多种情感可能在同一实例中共存的问题。以往的多标签情感预测方法没有同时提取文本的局部特征和全局语义信息,或未考虑标签之间的相关性。基于此,该文提出了一种基于神经网络融合标签相关性的多标签情感预测模型(Label-CNN_LSTM_Attention,L-CLA),利用Word2Vec方法训练词向量,将CNN和LSTM相结合,通过CNN层挖掘文本更深层次的词语特征,通过LSTM层学习词语之间的长期依赖关系,利用Attention机制为情意词特征分配更高的权重。同时,用标签相关矩阵将标签特征向量补全后与文本特征共同作为分类器的输入,考察了标签之间的相关性。实验结果表明,L-CLA模型在重新标注后的NLP&CC2013数据集上拥有较好的分类效果。

关键词:多标签分类;情感预测;神经网络

引用格式:陈玮,林雪健,尹钟. 基于神经网络融合标签相关性的多标签情感预测研究[J]. 中文信息学报, 2021, 35(1): 104-112.
CHEN Wei, LIN Xuejian, YIN Zhong. Neural Network Based Multi-label Sentiment Analysis via Tag Fusion[J].Journal of Chinese Information Processing,2020,35(1):104-112.

全文链接:点击下载

✦ 基于命名实体敏感的分层新闻故事线生成方法

作  者:樊笑冰,饶 元,王 硕,李睿祥,刘旭辉

摘  要:社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多视点的事件脉络。该方法主要通过以下3个步骤实现:①基于事件主题信息与隐式语义信息相结合的方法检测事件;②基于多维语义信息的社区检测算法划分主题事件的子事件;③基于多视点信息构造事件发展的脉络。在真实数据集上的实验结果表明,该方法在三个步骤比基线方法均有提高,其中在构造事件发展脉络阶段,该方法在理解性、概括性和准确性指标上分别高出0.44、0.11和0.50。

关键词:事件演变;故事线;聚类;主题模型;社区发现

引用格式:樊笑冰,饶元,王硕,李睿祥,刘旭辉. 基于命名实体敏感的分层新闻故事线生成方法[J]. 中文信息学报, 2021, 35(1): 113-124.
FAN Xiaobing, RAO Yuan, WANG Shuo, LI Ruixiang, LIU Xuhui. Named Entity Sensitive Generation of Hierarchical News Storyline[J]. Journal of Chinese Information Processing, 2020, 35(1): 113-124.

全文链接:点击下载

自然语言处理应用 

✦ 基于多源知识图谱融合的智能导诊算法

作  者:刘道文,阮 彤,张晨童,邱家辉,翟 洁,何 萍,葛小玲

摘  要:患者网上挂号时常有挂错科室的现象,因此需要科室推荐应用,功能类似线下医院的护士台预诊。然而,由于医院科室设置不尽相同,患者各项特征和科室之间的关系也不明确,给自动科室推荐带来挑战。因此,该文首先定义了带权重的知识图谱,用于描述症状、疾病以及性别等特征与科室和医院之间复杂的量化关系。其次,利用区域信息平台的电子健康档案(electronic health records,EHR)数据,获取多家医院的疾病—科室信息。在融合国际疾病编码(international classification of diseases,ICD)、医疗网站中的症状—疾病数据后,用搜索引擎结果补充权重关系,形成可用的知识图谱。图谱目前包含了38家医院,6 110个科室,6 220个症状,60 736个症状相关疾病关系。当患者输入基于自然语言描述的症状与疾病后,通过该文设计的预滤噪的BERT实体识别模型与部位制导的医疗实体归一化算法,识别并归一化患者主诉中的症状词、疾病词和部位词。最后,基于该文设计的基于权重的联合症状预测疾病概率算法(weight-based disease prediction algorithm based on multiple symptoms,WBDPMS),联合多个症状预测可能的相关疾病,以此来实现通过主诉推荐最合适的医院及科室。实验结果表明,准确率达到0.88。

关键词:知识图谱;智能导诊;实体识别;实体对齐;实体归一化

引用格式:刘道文,阮彤,张晨童,邱家辉,翟洁,何萍,葛小玲. 基于多源知识图谱融合的智能导诊算法[J]. 中文信息学报, 2021, 35(1): 125-134.
LIU Daowen, RUAN Tong, ZHANG Chentong, QIU Jiahui, ZHAI Jie, HE Ping, GE Xiaoling. Clinical Departments Recommendation by Fusing Knowledge Graphs from Electronic Healthcare Records and Medical Websites[J]. Journal of Chinese Information Processing, 2020, 35(1): 125-134.

全文链接:点击下载

✦ 基于Transformer网络的中文单字词检错方法研究

作  者:曹 阳,曹存根,王 石

摘  要:错别字自动识别是自然语言处理中一项重要的研究任务, 在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库。其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果。实验表明,该方法具有较好的实用性。在自动生成的测试集上,识别准确率和召回率分别达到83.6% 和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8%和61.4%。

关键词:单字词检错;Transformer网络; 滑动窗口

引用格式:曹阳,曹存根,王石. 基于Transformer网络的中文单字词检错方法研究[J]. 中文信息学报, 2021, 35(1): 135-142.
CAO Yang, CAO Cungen, WANG Shi. A Transformer Approach to Error Detection of Chinese Single-character Word[J]. Journal of Chinese Information Processing, 2020, 35(1): 135-142.

全文链接:点击下载

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK