5

《中文信息学报》新刊概览∣ 2019年第8期(33卷第8期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484327&%3Bidx=1&%3Bsn=5a78a6f92a35617a2afedb1b3dae3a3a
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《中文信息学报》新刊概览∣ 2019年第8期(33卷第8期)

Original JCIP 中文信息学报 2019-09-05 03:26
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

语言分析与计算

✦ 融合概念与逻辑的中文深层语义描述体系

作  者:夏乔林,穗志方,常宝宝,詹卫东,张坤丽,柯永红

摘  要:自然语言的语义理解涉及多个层面的问题,包括以谓词为中心的基本命题义、命题义之外的概念义、逻辑补足义等。目前主流的浅层语义分析主要集中在对命题义的分析上,缺少对概念义和逻辑义的支持,难以辅助计算机对文本的深度理解与推理。该文借鉴论元结构理论、事件语义学等相关语言学理论,突破语义角色标注等浅层语义分析的局限,建立了一种融合概念与逻辑的中文深层语义描述体系;并在该体系基础上,采用层层渲染的标注策略,构建了基于真实语料的大规模中文深层语义标注语料库,通过语言工程实践验证该描述体系的完备性和覆盖度。这一理论体系的建立和语言资源的构建,有望推动中文自动语义分析技术和人工智能等相关工作的创新发展。

关键词:中文语义;意义表示;资源构建

引用格式:

夏乔林,穗志方,常宝宝,詹卫东,张坤丽,柯永红. 融合概念与逻辑的中文深层语义描述体系[J]. 中文信息学报, 2019, 33(8): 1-11. 

XIA Qiaolin, SUI Zhifang, CHANG Baobao, ZHAN Weidong, ZHANG Kunli, KE Yonghong. Chinese Deep Semantic Representation with Concept and Logic[J].Journal of Chinese Information Processing, 2019, 33(8): 1-11.

全文链接:点击下载

✦ 运用多层注意力神经网络识别中文隐式篇章关系

作  者:徐 昇,王体爽,李培峰,朱巧明

摘  要:中文隐式篇章关系识别是一个具有挑战性的任务,其难点在于如何捕获论元的语义信息。该文提出了一个模拟人类双向阅读和重复阅读过程的三层注意力网络模型(TLAN)用于识别中文隐式篇章关系。首先,使用Self-Attention层对论元进行编码;然后,通过细粒度的Interactive Attention层模拟双向阅读过程以生成包含交互信息的论元表示,并且通过非线性变换获得论元对信息的外部记忆;最后,通过包含外部记忆的注意力层来模拟重复阅读过程,在论元对记忆的引导下生成论元的最终表示。在中文篇章树库(CDTB)上进行的隐式篇章关系识别实验结果显示,该文提出的模型TLAN在Micro-F1和Macro-F1上超过了多个基准模型。

关键词:篇章分析;隐式篇章关系识别;注意力机制

引用格式:

徐昇,王体爽,李培峰,朱巧明. 运用多层注意力神经网络识别中文隐式篇章关系[J]. 中文信息学报, 2019, 33(8): 12-19,35. 

XU Sheng, WANG Tishuang, LI Peifeng, ZHU Qiaoming. Multi-Layer Attention Network Based Chinese Implicit Discourse Relation Recognition[J].Journal of Chinese Information Processing , 2019, 33(8): 12-19,35.

全文链接:点击下载

✦ 基于主述位理论的汉语基本篇章单元识别

作  者:葛海柱,孔 芳,周国栋

摘  要:基本篇章单元(Elementary Discourse Units,EDU)识别对篇章分析工作意义重大,是构建篇章结构的基础。从篇章衔接性视角看,每个EDU都由要表达信息的起始点——主位和要传达的新信息——述位两部分构成。该文结合已有研究和汉语实际情况,给出了一个基于主述位理论的汉语基本篇章单元识别方法。该方法将EDU识别转化为主述位识别问题,由主位、述位的位置间接地确定EDU的边界,最终完成EDU的识别。而主、述位间具有明显的信息序列化特征,因此可通过序列化标注方法进行。基于主述位理论的汉语基本篇章单元识别方法更关注EDU作为一个独立的篇章单元的内部构成,在汉语篇章话题结构语料库CDTC上的实验也进一步验证了该方法的有效性,EDU识别的性能F1值达到了89.46%。

关键词:基本篇章单元;主位;述位;序列化标注

引用格式:

葛海柱,孔芳,周国栋. 基于主述位理论的汉语基本篇章单元识别[J]. 中文信息学报, 2019, 33(8): 20-27. 

GE Haizhu, KONG Fang, ZHOU Guodong. Chinese Elementary Discourse Unit Recognition Based on Theme-Rheme Theory[J].Journal of Chinese Information Processing , 2019, 33(8): 20-27.

全文链接:点击下载

✦ 基于神经网络的端到端的事件指代消解研究

作  者:吴瑞萦,孔 芳

摘  要:事件作为文本信息的关键语义组件,对篇章的理解具有重要意义。由于事件具有自身包含信息丰富、表达方式多样,以及在文本中分布稀疏等特点,使得事件指代消解成为自然语言处理领域的一个难点任务。在以往的事件指代消解任务中,多借助人工提取词匹配和句法结构等信息,再基于这些抽取的特征进行消解,然而这些特征并不能有效地处理具有复杂语义的事件任务。该文提出一种端到端的神经网络模型,通过多种词表征、双向循环神经网络和注意力机制来学习上下文的语义内容,从而完成事件的指代消解任务。在KBP2015、2016数据集上进行的事件指代消解实验验证了该文给出模型的有效性。实验结果表明,该神经网络模型能很好地理解文本语义信息,捕捉关键单词,提高事件指代消解任务的性能,最终端到端的事件指代消解性能在CoNLL评测标准下达到39.9%的F1值。

关键词:事件指代消解;自然语言处理;语义信息;端到端

引用格式:

吴瑞萦,孔芳. 基于神经网络的端到端的事件指代消解研究[J]. 中文信息学报, 2019, 33(8): 28-35.

WU Ruiying, KONG Fang. End-to-end Neural Event Coreference Resolution[J].Journal of Chinese Information Processing , 2019, 33(8): 28-35.

全文链接:点击下载

✦ 融合源端句法和语义角色信息的AMR解析

作  者:葛东来,李军辉,朱慕华,李寿山,周国栋

摘  要:序列到序列(seq2seq)的框架可以应用到抽象语义表示(AMR)解析任务中,把AMR解析当作一个从源端句子到目标端AMR图的翻译任务。然而,以前的工作通常把源端句子表示为一个单词序列,忽略了句子内部潜藏的句法和语义角色信息。基于seq2seq框架,该文提出了一个直接而有效的融合句法和语义角色信息的AMR解析方法。实验结果表明,该文的方法在AMR英文标准数据集上取得了6.7%的显著提升。最后,该文从多个角度深入分析了源端的句法和语义角色信息是如何对AMR解析提供帮助的。分析表明,词性信息和subword技术对AMR解析性能提升的贡献最大,上层句法和语义角色信息次之。

关键词:AMR解析;序列到序列模型;句法;语义角色

引用格式:

葛东来,李军辉,朱慕华,李寿山,周国栋. 融合源端句法和语义角色信息的AMR解析[J]. 中文信息学报, 2019, 33(8): 36-45. 

GE Donglai, LI Junhui, ZHU Muhua, LI Shoushan, ZHOU Guodong. Modeling Source Syntax and Semantic Roles for Neural AMR Parsing[J].Journal of Chinese Information Processing , 2019, 33(8): 36-45.

全文链接:点击下载

语言资源建设

✦ 一种基于小字典不对等语料的跨语言词嵌入方法

作  者:王红斌,冯银汉,余正涛,文永华

摘  要:双语词嵌入通常采用从源语言空间到目标语言空间映射,通过源语言映射嵌入到目标语言空间的最小距离线性变换实现跨语言词嵌入。然而大型的平行语料难以获得,词嵌入的准确率难以提高。针对语料数量不对等、双语语料稀缺情况下的跨语言词嵌入问题,该文提出一种基于小字典不对等语料的跨语言词嵌入方法,首先对单语词向量进行归一化,对小字典词对正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。在英语—意大利语、德语和芬兰语上进行了实验验证,实验结果证明该文方法可以在跨语言词嵌入中减少梯度下降迭代次数,减少训练时间,同时在跨语言词嵌入上表现出较好的正确率。

关键词:小字典;不对等语料;词嵌入;k-means聚类;梯度下降

引用格式:

王红斌,冯银汉,余正涛,文永华. 一种基于小字典不对等语料的跨语言词嵌入方法[J]. 中文信息学报, 2019, 33(8): 46-52. 

WANG Hongbin, FENG Yinhan, YU Zhengtao, WEN Yonghua. Cross Language Word Embedding Based on Small Dictionary and Unbalance Mono-lingual Corpus[J].Journal of Chinese Information Processing , 2019, 33(8): 46-52.

全文链接:点击下载

民族、跨境及周边语言信息处理

✦ 基于置信度的藏文人名识别的主动学习模型研究

作  者:王志娟,刘飞飞,赵小兵,宋 伟

摘  要:训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示: 选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。

关键词:藏文人名识别;主动学习;置信度

引用格式:

王志娟,刘飞飞,赵小兵,宋伟. 基于置信度的藏文人名识别的主动学习模型研究[J]. 中文信息学报, 2019, 33(8): 53-59.

WANG Zhijuan, LIU Feifei, ZHAO Xiaobing, SONG Wei. Confidence Based Active Learning Model for Tibetan Person Name Recognition[J].Journal of Chinese Information Processing , 2019, 33(8): 53-59.

全文链接:点击下载

✦ 基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究

作  者:古丽尼格尔·阿不都外力,吐尔根·依布拉音,卡哈尔江·阿比的热西提,王路路

摘  要:词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。

关键词:维吾尔语;词干提取;Bi-LSTM-CRF

引用格式:

古丽尼格尔·阿不都外力,吐尔根·依布拉音,卡哈尔江·阿比的热西提,王路路. 基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究[J]. 中文信息学报, 2019, 33(8): 60-66.

GULINIGEER Abudouwaili, TUERGEN Yibulayin, KAHAERJIANG Abiderexiti, WANG Lulu. Research on Uyghur Stemming Based on Bi-LSTM-CRF Model[J].Journal of Chinese Information Processing, 2019, 33(8): 60-66.

全文链接:点击下载

信息抽取与文本挖掘

✦ 基于篇章主次关系的单文档抽取式摘要方法研究

作  者:张 迎,王中卿,王红玲

要:抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显著提高。

关键词:抽取式摘要;主次关系;神经网络

引用格式:

张迎,王中卿,王红玲. 基于篇章主次关系的单文档抽取式摘要方法研究[J]. 中文信息学报, 2019, 33(8): 67-76.

ZHANG Ying, WANG Zhongqing, WANG Hongling. Single Document Extractive Summarization with Satellite and Nuclear Relations[J].Journal of Chinese Information Processing , 2019, 33(8): 67-76

全文链接:点击下载 

✦ 基于混合神经网络的实体和事件联合抽取方法

作  者:吴文涛,李培峰,朱巧明

要:实体和事件抽取旨在从文本中识别出实体和事件信息并以结构化形式予以呈现。现有工作通常将实体抽取和事件抽取作为两个单独任务,忽略了这两个任务之间的紧密关系。实际上,事件和实体密切相关,实体往往在事件中充当参与者。该文提出了一种混合神经网络模型,同时对实体和事件进行抽取,挖掘两者之间的依赖关系。模型采用双向LSTM识别实体,并将在双向LSTM中获得的实体上下文信息进一步传递到结合了自注意力和门控卷积的神经网络来抽取事件。在英文ACE 2005语料库上的实验结果证明了该文方法优于目前最好的基准系统。

关键词:事件抽取;实体抽取;自注意力;门控卷积神经网络

引用格式:

吴文涛,李培峰,朱巧明. 基于混合神经网络的实体和事件联合抽取方法[J]. 中文信息学报, 2019, 33(8): 77-83.

WU Wentao, LI Peifeng, ZHU Qiaoming. Joint Extraction of Entities and Events by a Hybrid Neural Network[J].Journal of Chinese Information Processing , 2019, 33(8): 77-83.

全文链接:点击下载 

✦ 基于多任务学习的生物医学实体关系抽取

作  者:李青青,杨志豪,罗 凌,林鸿飞,王 健

要:生物医学实体关系抽取是生物医学文本挖掘领域的一项重要任务,它可以自动从生物医学文本中挖掘实体间的相互关系。目前,生物医学实体关系抽取方法一般只针对某一特定任务(如药物关系,蛋白质交互关系抽取等)训练单任务模型进行抽取,忽略了多个任务之间的相关性。因此,该文使用基于神经网络的多任务学习方法对多个生物医学关系抽取任务间的关联性进行了探索。首先构建了全共享模型和私有共享模型,然后在此基础上提出了一种基于Attention机制的主辅多任务模型。在生物医学领域关系抽取的5个公开数据集上的实验结果表明,该文的多任务学习方法可以有效地在学习任务之间共享信息,使得任务间互相促进,获得了比单任务方法更好的关系抽取结果。

关键词:神经网络;多任务学习;关系抽取

引用格式:

李青青,杨志豪,罗凌,林鸿飞,王健. 基于多任务学习的生物医学实体关系抽取[J]. 中文信息学报, 2019, 33(8): 84-92.

LI Qingqing, YANG Zhihao, LUO Ling, LIN Hongfei, WANG Jian. A Multi-task Learning Approach to Biomedical Entity Relation Extraction[J].Journal of Chinese Information Processing, 2019, 33(8): 84-92.

全文链接:点击下载 

问答、对话、阅读理解

✦基于密令位置信息特征的问题生成

作  者:董孝政,洪 宇,朱芬红,姚建民,朱巧明 

要:问题生成是指在理解特定陈述句语义的前提下,自动地生成一条或多条关于该陈述句的问题。该文主要针对其中一项子任务开展研究,即一对一的问题生成(Point-wise Question Generation,PQG)。现有PQG研究,主要以端到端的序列化生成模型为框架,相应方法生成的问句,在流畅度方面已达到有限的可接受度(BlEU-4约13%)。尽管如此,现有方法缺乏语块一级的注意力建模,从而无法将“潜在提问对象”的语义独立且整体地纳入表示学习过程。这一不足往往负面影响解码端的问题类型预测和提问词估计。针对这一问题,该文提出了一种融合密令注意力机制的端对端PQG模型。其中,密令是对短语和语块一级的潜在答案的总体概括,其往往表现为陈述句中的一组连续的词项。在方法实现方面,该文在端对端架构的编码过程中,将密令的位置信息与全句语义信息进行融合,而在解码过程中,则加强了针对密令的注意力。实验采用SQuAD语料予以实施,测试结果显示,该文所提方法的性能优于现有主流模型,其获得的BLEU-4指标高于基准系统1.98%。

关键词:问题生成,密令,端到端

引用格式:

董孝政,洪宇,朱芬红,姚建民,朱巧明. 基于密令位置信息特征的问题生成[J]. 中文信息学报, 2019, 33(8): 93-100.

Dong Xiaozheng, Hong Yu, Zhu Fenhong, Yao Jianmin, Zhu Qiaoming. Question Generation Based on Information Features of Token Position[J].Journal of Chinese Information Processing, 2019, 33(8): 93-100.

全文链接:点击下载

✦深度学习建模下的自动句子填空技术

作  者:陈志刚,华 磊,刘 权,尹 坤,魏 思,胡国平 

要:该文提出了一种结合依存句法分析和深度神经网络的自动句子填空技术。首先,提出了一种依存句法信息展开的序列建模方案,可以在引入句法信息的同时兼顾效率,并在此基础上利用排序学习思想,训练候选答案排序模型;其次,针对整体序列建模的细节建模失准问题,提出了一种基于语言模型多状态信息融合的自动句子填空模型;最后,设计了一种结合序列表示、依存句法信息、多状态信息的多源信息融合模型。该文还构建出一个英文答题数据集并据此进行了实验。实验结果表明,依存句法展开模型相对于常用的序列建模方案,准确率有11%的绝对提升;语言模型状态排序模型相对于基线模型,准确率有9.3%的绝对提升;最终的多源信息融合模型,在测试集上获得最高76.9%的准确率。

关键词:句子填空;句法分析;序列建模;深度学习

引用格式:

陈志刚,华磊,刘权,尹坤,魏思,胡国平. 深度学习建模下的自动句子填空技术[J]. 中文信息学报, 2019, 33(8): 101-110.

CHEN Zhigang, HUA Lei, LIU Quan, YIN Kun, WEI Si, HU Guoping. Automatic Sentence Completion Based on Deep Learning[J].Journal of Chinese Information Processing , 2019, 33(8): 101-110.

全文链接:点击下载

情感分析与社会计算

✦基于熵加权属性子空间的目标社区发现

作  者:刘海姣,马慧芳,昌 阳,李志欣 

要:该文提出一种基于熵加权属性子空间的目标社区发现方法,挖掘与用户偏好相关的社区。首先,从属性和结构两个方面综合考虑节点间的相似度,利用用户给定的样例节点及其邻居扩展得到目标社区中心点集;其次,在中心点集上,设计一种熵加权的属性权重计算方法,得到目标社区的属性子空间权重;再次,利用目标社区的属性子空间权重,基于节点的属性和结构相似度重写网络中边的权重;最后,定义社区适度函数并结合重写后网络中边的权重改进社区适度函数,以中心节点集为核心,挖掘基于用户偏好的内部连接紧密且与外部分离较好目标社区。此外,该方法可以扩展到网络中多个社区发现及离群点检测任务中。在人工网络和真实网络数据集上的实验结果验证了该文所提算法的效率和有效性。

关键词:熵;属性权重;社区发现;用户偏好

引用格式:

刘海姣,马慧芳,昌阳,李志欣. 基于熵加权属性子空间的目标社区发现[J]. 中文信息学报, 2019, 33(8): 111-120.

LIU Haijiao, MA Huifang, CHANG Yang, LI Zhixin. Target Community Detection Based on Attribute Subspace with Entropy Weight[J].Journal of Chinese Information Processing , 2019, 33(8): 111-120.

全文链接:点击下载

✦基于ESU图的活动社交网络用户参加活动推荐

作  者:仲兆满,戴红伟,管 燕

要:活动社交网络(EBSNs)为用户提供了方便的组织、参加和分享社交活动的平台。该文面向EBSNs活动推荐问题,提出了包含活动(Event)、主办方(Sponsor)和用户(User)的ESU图模型,深入揭示了EBSNs的实体及其社交关系。因为用户参加活动受多个因素影响,我们提出了基于ESU图的活动推荐多因素决策模型,包括社交影响力、活动内容、活动地点及活动时间。根据ESU图特点,提出了基于双向重启随机游走算法BD-RWR的实体重要度计算方法。选取真实的EBSNs平台—豆瓣同城验证所提方法的有效性。实验结果表明,该文提出的ESU图模型及融合了多因素的活动推荐模型,与已有最新方法相比,有效地提升了用户参加活动的推荐效果。

关键词:活动社交网络;活动推荐;图模型;多因素推荐模型;双向重启随机游走算法

引用格式:

仲兆满,戴红伟,管燕. 基于ESU图的活动社交网络用户参加活动推荐[J]. 中文信息学报, 2019, 33(8): 121-131.

ZHONG Zhaoman, DAI Hongwei, GUAN Yan. ESU Based Event Recommendation in Event-Based Social Networks[J].Journal of Chinese Information Processing , 2019, 33(8): 121-131.

全文链接:点击下载

自然语言处理应用

长文本武侠小说外号识别研究

作  者:唐 锋,梁 循,赵晓磊,张 旋,程恒超

要:长文本武侠小说中主人公以侠客和义士为主,人物个性鲜明,外号可以概括人物最显著的特征。传统命名实体识别主要集中在人名、地名、机构名等领域,对于识别外号尚未有相关研究,但作为武侠小说中不可或缺的元素,外号识别对于同义词识别等研究方向具有借鉴意义。鉴于此,该文提出对武侠小说中武侠人名对应的外号的未登录词扩展识别筛选并辅以固定句式法则的识别方法。未登录词扩展识别筛选方法融合了对于左邻字符串的拓展和筛选同时定义了竞争外号子串和候选外号子串等概念,固定句式法则方法是通过外号指示词对观察窗口的候选外号子串进行筛选。经过统计和分类提出了武侠小说高频词表和低频指示字典,用于对竞争外号子串进行筛选。实验证明该文方法可行有效。

关键词:外号识别;竞争外号子串;高频词表;固定句式法则

引用格式:

唐锋,梁循,赵晓磊,张旋,程恒超. 长文本武侠小说外号识别研究[J]. 中文信息学报, 2019, 33(8): 132-142.

TANG Feng, LIANG Xun, ZHAO Xiaolei, ZHANG Xuan, CHENG Hengchao. Nickname Recognition in Full-length Knight-errant Novels[J].Journal of Chinese Information Processing, 2019, 33(8): 132-142.

全文链接:点击下载

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK