2

《中文信息学报》新刊概览∣ 2020年第4期(34卷第4期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484483&%3Bidx=1&%3Bsn=9f51224f501a9dfd65b89fa5b20d9df7
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2020年第4期(34卷第4期)

Original JCIP 中文信息学报 2020-06-05 08:01
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

语言分析与计算

✦ 基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究

作  者:程 宁,李 斌,葛四嘉,郝星月,冯敏萱

摘  要:古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。

关键词:古文断句;分词;词性标注;BiLSTM-CRF;古汉语信息处理

引用格式:程宁,李斌,葛四嘉,郝星月,冯敏萱. 基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J]. 中文信息学报, 2020, 34(4): 1-9.

CHENG Ning, LI Bin, GE Sijia, HAO Xingyue, FENG Minxuan. A Joint Model of Automatic Sentence Segmentation and Lexical Analysis for Ancient Chinese Based on BiLSTM-CRF Model[J]. Journal of Chinese Information Processing, 2020, 34(4): 1-9.

全文链接:点击下载

✦ 一种轻量级的汉语语义角色标注规范

作  者:刘亚慧,杨浩苹,李正华,张 民

摘  要:作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大;②PropBank中谓词框架的定义难度较大;③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融合已有的中英文语义角色标注规范的优点,同时结合实际标注中遇到的问题,制定了一种轻量级的适合非语言学背景的标注者参与的中文语义角色标注规范。第一,采用基于词的论元表示,避免了片段边界的确定,从而降低标注难度;第二,标注者直接根据句子上下文信息,标注谓词相关论元角色,而无须预先定义每个谓词的所有语义框架;第三,显式标注句子中省略的核心论元,更准确地刻画句子的语义信息。此外,为了保证标注一致性和提高数据标注质量,规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析。

关键词:标注规范;浅层语义分析;论元角色;谓词

引用格式:刘亚慧,杨浩苹,李正华,张民. 一种轻量级的汉语语义角色标注规范[J]. 中文信息学报, 2020, 34(4): 10-20.

LIU Yahui, YANG Haoping, LI Zhenghua, ZHANG Min. A Lightweight Annotation Guideline of Chinese Semantic Role Labeling[J]. Journal of Chinese Information Processing, 2020,34(4): 10-20.

全文链接:点击下载

✦ 基于关系对齐的汉语虚词抽象语义表示与分析

作  者:戴玉玲,戴茹冰,冯敏萱,李 斌,曲维光

摘  要:虚词具有丰富的语法意义,对句子理解起着不可或缺的作用。虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用。为了表示虚词的句法语义信息,该文首先在抽象语义表示(abstract meaning representation,AMR)这种基于概念图的语义表示方法的基础上,增加了词语和概念关系的对齐信息,使得虚词对应于概念节点或节点之间的关系弧。其次,选取了语言规范的人教版小学语文课本8 587句作为语料,进行AMR的标注。然后,针对语料中24 801个虚词实例进行统计,发现介词、连词、结构助词对应概念间的关系,占虚词总数的58.80%;而语气词和体助词表示概念,占41.20%。这表明AMR可以动态地描写出虚词功能,为整句句法语义分析提供更好的理论与资源。

关键词:虚词; 抽象语义表示; 关系对齐; 语言知识库

引用格式:戴玉玲,戴茹冰,冯敏萱,李斌,曲维光. 基于关系对齐的汉语虚词抽象语义表示与分析[J]. 中文信息学报, 2020, 34(4): 21-29.

DAI Yuling, DAI Rubing, FENG Minxuan, LI Bin, QU Weiguang. Representation and Analysis of Abstract Meaning of Chinese Function Words Based on Relation Alignment[J]. Journal of Chinese Information Processing,2020, 34(4): 21-29.

全文链接:点击下载

语言资源建设

✦ 中文症状知识库的建立与分析

作  者:昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方

摘  要:构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一。症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊、医学问答等任务的重要因素。该文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库。该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8 772种症状,共计146 631条属性关系。所构建的症状知识库(CSKB)是中文医学知识图谱的重要组成部分,并为KBQA、知识推理及决策支持等应用提供了数据基础。

关键词:中文症状知识库;医学知识图谱;知识标注

引用格式:昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方. 中文症状知识库的建立与分析[J].中文信息学报, 2020, 34(4): 30-37.

ZAN Hongying, HAN Yangchao, FAN Yaxin, NIU Chengzhi, ZHANG Kunli, SUI Zhifang. Construction and Analysis of Symptom Knowledge Base in Chinese[J].Journal of Chinese Information Processing,2020, 34(4): 30-37.

全文链接:点击下载

✦ 基于同义推理的篇章级实体上下位关系语料库构建

作  者:吴 婷,李明扬,孔 芳

摘  要:伴随信息时代的快速发展,网络中的数据资源呈现井喷式增长趋势。如何从无序繁多的信息中挖掘深层次的结构化信息,构建一定规模的可用知识库,对于自然语言处理相关任务的研究具有重要意义。上下位关系作为知识库的基本框架,受到国内外专家学者的一致青睐。而目前已经存在的语料库大多局限在通用领域,对跨句子的上下位关系的关注相对较少,而对跨篇章的上下位关系目前还未见到相关标注。该文提出了一种基于同义推理的篇章级实体上下位关系标注策略,并以国防科技领域的文本作为具体实施对象,最终构建了一个中等规模的篇章级上下位关系语料库,该语料库涵盖国防军事领域的新闻文本和科技文献两种题材,共计962篇文本,共标注了11 020个语义关系。实体上下位关系的标注一致性达到0.82,为国防科技领域的上下位关系识别研究奠定了语料基础。

关键词:上下位关系;跨篇章;同义推理;国防科技领域

引用格式:吴婷,李明扬,孔芳. 基于同义推理的篇章级实体上下位关系语料库构建[J]. 中文信息学报, 2020, 34(4): 38-46.

WU Ting, LI Mingyang, KONG Fang. Construction of Textual Entity Hypernymy Corpus Based on Synonymy Reasoning[J]. Journal of Chinese Information Processing,2020, 34(4): 38-46.

全文链接:点击下载

机器翻译

✦ 基于GAN模型优化的神经机器翻译

作  者:明玉琴,夏 添,彭艳兵

要:在机器翻译任务中,输入端的一些微小的干扰信息,可能引起NMT的模型翻译性能的下降。该文提出了一种融入对抗学习的神经机器翻译方法。给出一个源句子序列,构造了一个将源句子添加了微小噪声的新序列,并且两者的语义相近。然后把这两个序列交由编码器处理,产生各自的向量表示;并将处理结果交给判别器和解码器做进一步处理,最后比较加入噪声前后的翻译性能。实验表明,在多个语言对的翻译任务上,使用该模型的方法不仅提升了翻译性能,而且对噪声输入也表现出了鲁棒性。

关键词:NMT;对抗学习;Transformer; BLEU

引用格式:明玉琴,夏添,彭艳兵. 基于GAN模型优化的神经机器翻译[J]. 中文信息学报, 2020, 34(4): 47-54.

MING Yuqin, XIA Tian, PENG Yanbing. Neural Machine Translation Based on GAN Optimization[J].Journal of Chinese Information Processing,2020, 34(4): 47-54.

全文链接:点击下载 

民族、跨境及周边语言信息处理

✦ 基于条件生成对抗网络的蒙古文字体风格迁移模型

作  者:李 进,高 静,陈俊杰,王永军

摘  要:蒙古文的每个字素在词的不同位置有着不同的书写形式,使得蒙古文字形结构多样且数量庞大,从而导致利用计算机辅助和传统人工方式设计蒙古文字体需要耗费大量的人力物力。故创建一种能自动生成蒙文字体风格的模型十分必要。国内外已有学者开展了对汉字和英文字体风格自动迁移的研究,但蒙古文领域仍处于空白阶段。因此,该文提出将条件生成对抗网络模型应用于蒙古文字体风格迁移,并给出了相关模型,实现了相应的算法和软件。在蒙古文字体数据集上进行实验,模型采用生成损失和判别损失衡量模型,Adam优化器自动调整学习率,逐渐减少差异值,直到生成器和判别器达到纳什平衡状态,可直接从蒙古文标题字体生成蒙古文手写体等字体,得到的生成字体样式基本接近真实字体样式,达到字体风格迁移的效果。

关键词:字素;蒙文字体;条件生成对抗网络;风格迁移;自动生成

引用格式:李进,高静,陈俊杰,王永军. 基于条件生成对抗网络的蒙古文字体风格迁移模型[J]. 中文信息学报, 2020, 34(4): 55-59,68.

LI Jin, GAO Jing, CHEN Junjie, WANG Yongjun. Mongolian Font Style Transfer Model Based on Conditional Generative Adversarial Network[J]. Journal of Chinese Information Processing, 2020, 34(4): 55-59,68.

全文链接:点击下载

信息抽取与文本挖掘

✦基于联合学习的生物医学因果关系抽取

作  者:刘苏文,邵一帆,钱龙华

要:生物医学因果关系抽取是BioCreative社区提出的一项评测任务,旨在挖掘生物医学实体间丰富的语义关系,并用生物医学表征语言(biological expression language, BEL)来表示。与传统的实体关系抽取不同,该任务不仅包含实体间因果关系的抽取,还包含实体功能的识别。此前已经提出了一些该任务的解决方法,但均未考虑这两个子任务间的关联性。该文基于多任务的思想,提出一种二元关系抽取和一元功能识别共同决策的联合学习模式。首先两个任务共享底层向量表示,然后利用长短期记忆(long short-term memory, LSTM)网络和门控机制学习两个任务之间的交互表示,最后分别进行分类预测。实验结果表明,该方法能够融合两个子任务的信息,在2015 BC-V测试集上获得了45.3%的F值。

关键词因果关系抽取;联合学习;门控机制

引用格式:刘苏文,邵一帆,钱龙华. 基于联合学习的生物医学因果关系抽取[J]. 中文信息学报, 2020, 34(4): 60-68.

LIU Suwen, SHAO Yifan, QIAN Longhua. Biomedical Causality Relation Extraction Based on Joint Learning[J].Journal of Chinese Information Processing,2020, 34(4): 60-68.

全文链接:点击下载

✦融合词典特征的Bi-LSTM-WCRF中文人名识别

作  者:成于思,施云涛

要:受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明: 在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F1值提高18.34%,与传统Bi-LSTM-CRF模型相比,召回率提高15.53%,F1提高8.83%。WCRF还可以应用到其他类别不均衡的序列标注或分类问题中。

关键词人名识别; 双向长短期记忆网络; 加权条件随机场; 词典特征

引用格式:成于思,施云涛. 融合词典特征的Bi-LSTM-WCRF中文人名识别[J]. 中文信息学报, 2020, 34(4): 69-76.

CHENG Yusi, SHI Yuntao. Bi-LSTM-WCRF Incorporating Dictionary Feature for Chinese Person Name Recognition[J]. Journal of Chinese Information Processing, 2020, 34(4): 69-76.

全文链接:点击下载

阅读理解与文本生成

✦ 面向短文本理解的省略恢复研究

作  者:郑 杰,孔 芳,周国栋

摘  要:省略作为一种普遍存在的语言现象,在中文文本尤其是对话、问答等短文本中频繁出现。该文从服务于短文本理解的视角出发,针对省略恢复问题提出了一种多重注意力融合的省略恢复模型。该模型融合交叉注意力机制和自注意力机制,借助门控机制将上下文信息与当前文本信息进行有效结合。在短文本问答语料上的多组实验结果表明,该文给出的模型能有效地识别并恢复短文本中的省略,从而更好地服务于短文本的理解。

关键词:省略;短文本;注意力

引用格式:郑杰,孔芳,周国栋. 面向短文本理解的省略恢复研究[J].中文信息学报, 2020, 34(4): 77-84.

ZHENG Jie, KONG Fang, ZHOU Guodong. A Study of Ellipsis Recovery for Short Text Comprehension[J].Journal of Chinese Information Processing,2020, 34(4): 77-84.

全文链接:点击下载

✦ 基于外部知识和层级篇章表示的阅读理解方法

作  者:谭红叶,李宣影,刘 蓓

摘  要:阅读理解指的是基于给定文章自动回答相关问题,这是人工智能及自然语言处理领域的一个研究热点。目前已提出许多基于深度学习的阅读理解方法,但是这些方法对问题理解及篇章建模不充分,导致模型获取答案准确率不高。为了解决上述问题,该文提出一个基于外部知识和层级篇章表示的阅读理解方法。该方法特点有: ①通过引入问题重要词的字典释义、HowNet义原,并结合问题类型,加强问题理解;②使用层级篇章表示,提升模型对篇章的理解;③在一个框架下联合优化问题类型预测与答案预测两个子任务。在DuReader数据集上的实验结果表明,该方法与基线系统性能相比最大提升了8.2%。

关键词:阅读理解;外部知识;篇章表示

引用格式:谭红叶,李宣影,刘蓓. 基于外部知识和层级篇章表示的阅读理解方法[J]. 中文信息学报, 2020, 34(4): 85-91.

TAN Hongye, LIXuanying, LIU Bei. Reading Comprehension Based on External Knowledge and Hierarchical Discourse Representation[J]. Journal of Chinese Information Processing, 2020, 34(4): 85-91.

全文链接:点击下载

情感分析与社会计算

✦ 融合CNN和EWC算法的不平衡文本情绪分类方法

作  者:程 艳,朱 海,项国雄,唐天伟,钟林辉,王国玮

要:文本情绪分类是自然语言处理领域的一个基本任务。然而,基于不平衡数据的学习使得传统文本情绪分类方法的分类性能降低。针对这个问题,该文提出了一种融合CNN和EWC算法的不平衡文本情绪分类方法。首先,该方法使用随机欠采样方法得到多组平衡数据;其次,按顺序单独使用每一组平衡数据输入CNN训练,同时在训练过程中引入EWC算法用以克服CNN中的灾难性遗忘;最后,把使用最后一组平衡数据输入CNN训练得到的模型作为最终分类模型。实验结果表明,该方法在分类性能上明显优于基于欠采样和多分类算法的集成学习框架,且该方法比基于多通道LSTM神经网络的不平衡情绪分类方法在Accuracy和G-mean上分别提高了1.9%和2.1%。

关键词:情绪分类;不平衡分类;CNN;EWC算法

引用格式:程艳,朱海,项国雄,唐天伟,钟林辉,王国玮. 融合CNN和EWC算法的不平衡文本情绪分类方法[J]. 中文信息学报, 2020, 34(4): 92-100.

CHENG Yan, ZHU Hai, XIANG Guoxiong, TANG Tianwei, ZHONG Linhui, WANG Guowei. Emotion Classification Based on CNN and EWC Algorithm for Unbalanced Texts[J]. Journal of Chinese Information Processing, 2020, 34(4): 92-100.

全文链接:点击下载

自然语言处理应用

✦ 基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究

作  者:程 勇,徐德宽,董 军

摘  要:文本阅读难度自动分级是让计算机能够根据文本特征自动判断文本所属的难度级别,该文以此为目标,提出一种基于多元语言特征与深度特征相融合的方法来实现对文本难度的自动分级。其中多元语言特征考虑了汉字、词汇、句子等不同的语言层面,同时涉及到频率、长度、复杂度、丰富度、连贯度等不同维度的信息。另一方面,该文利用了基于BERT的神经网络预训练模型来提取文本中句子的深度特征,在此基础上构建了一个端到端神经网络来将语言特征与深度特征进行融合,最终在自动分级任务上取得了不错的效果,分级正确率超过了基于传统语言特征的方法和基于主流神经网络的方法,充分表明了所提出的特征融合方法在文本阅读难度自动分级任务上的有效性。

关键词:语言特征;深度特征;阅读难度分级

引用格式:程勇,徐德宽,董军. 基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J]. 中文信息学报, 2020, 34(4): 101-110.

CHENG Yong, XU Dekuan, DONG Jun. Automatic Grading of Chinese Text Reading Difficulty Based on Multiple Linguistic Features and Deep Features[J].Journal of Chinese Information Processing,2020, 34(4): 101-110.

全文链接:点击下载

 

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK