31

CoNLL 2018 | 最佳论文揭晓:词嵌入获得的信息远比我们想象中的要多得多

 5 years ago
source link: https://www.jiqizhixin.com/articles/2018-10-31-14?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
vQzyQzA.png!web

机器之心 翻译

2018/10/31 12:31

参与:李亚洲、路雪 作者:Mikel Artetxe

CoNLL 2018 | 最佳论文揭晓:词嵌入获得的信息远比我们想象中的要多得多

CoNLL 是自然语言处理领域的顶级会议,每年由 SIGNLL 组织举办。CoNLL 2018 大会将于 10 月 31 日-11 月 1 日在比利时布鲁塞尔举行,地点与 EMNLP 2018 一样(EMNLP 2018 将于 10 月 31 日-11 月 4 日举行)。

昨日,CoNLL 公布了最佳论文,由来自西班牙巴斯克大学 IXA NLP 组的 Mikel Artetxe 等人获得。该论文展示了词嵌入模型能够捕获不同层面的信息(如语义/句法和相似度/相关度),为如何编码不同的语言信息提供了新的视角,该研究还研究了内外部评估之间的关系。

近年来,词嵌入成为自然语言处理的核心主题。业内提出了多种无监督方法来高效地训练单词的密集型向量表征,且成功地应用到语法解析、主题建模、文档分类等多类任务。

虽然从理论角度理解这些模型是更加活跃的研究路线,但这些研究背后的基本思路都是为类似的单词分配类似的向量表征。由此,大部分词嵌入模型依赖来自大型单语语料库的共现统计信息(co-occurrence statistics),并遵循分布假设,也就是相似单词倾向于出现在相似语境中。

然而,上述论点没有定义「相似单词」的含义,且词嵌入模型实际中应该捕捉哪种关系也不完全清楚。因此一些研究者在真正相似度(如 car - automobile)与关联度(如 car - road)之间进行区分。从另一个角度来说,词语相似度可聚焦在语义(如 sing-chant)或者句法(如 sing-singing)上。我们把这两个方面作为相似度的两个坐标轴,且每一个坐标轴的两端为两种性质:语义/句法轴和相似度/关联度轴。

本论文提出了一种新方法来调整给定的任意嵌入向量集,使其在这些坐标轴中靠近特定端点。该方法受一阶和二阶共现研究的启发,可推广为词嵌入向量线性变换的连续参数,我们称之为相似度阶(similarity order)。虽然业内提出了多种学习特定词嵌入的方法,但之前的研究明确地改变了训练目标,且总是依赖知识库这样的外部资源。而本论文提出的方法可用做任意预训练词嵌入模型的后处理,不需要任何额外资源。同样,该研究表明,标准的词嵌入模型能够编码不同的语言信息,但能够直接应用的信息有限。此外,该研究也分析了该方法与内部评估和下游任务的关系。该论文主要贡献如下:

1. 提出了一个具备自由参数的线性变换,能够调整词嵌入在相似度/关联度和语义/句法坐标轴中的性能,并在词汇类推数据集和相似度数据集中进行了测试。

2. 展示了当前词嵌入方法的性能受到无法同时显现不同语言信息(例如前面提到的坐标轴)的限制。该研究提出的方法表明,词嵌入能够捕获的信息多于表面显现出的信息。

3. 展示了标准的内部评估只能给出一个静态的不完整图景,加上该研究提出的方法能够帮助我们更好地理解词嵌入模型真正编码哪些信息。

4. 展示了该方法也能运用到下游任务中,但相比于使用一般词嵌入作为输入特征的监督系统,其效果在直接使用词嵌入相似度的无监督系统上更显著,因为监督系统有足够的表达能力来学习最优变换。

总之,该研究揭示了词嵌入如何表示不同语言信息,分析了它在内部评估和下游任务中所扮演的角色,为之后的发展开创了新机遇。

论文:Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation

2YRVRzB.png!web

论文链接:https://arxiv.org/abs/1809.02094

摘要:随着词嵌入最近取得成功,有人认为根本不存在词的理想表征,因为不同的模型倾向于捕捉不同且往往互不兼容的方面,如语义/句法和相似性/相关性。本论文展示了每个词嵌入模型捕获的信息多于直接显现的信息。线性转换无需任何外部资源就能调整模型的相似度阶,因此能够调整模型以在这些方面获得更好的结果,这为词嵌入编码不同的语言信息提供了新的视角。此外,我们还探索了内、外部评估的关系,我们在下游任务中的变换效果在无监督系统中的效果优于监督系统。

内部评估

6bEJvyf.png!web

表 1:原始嵌入以及具备对应 α 值的最佳后处理模型的内部评估结果。评估指标是词汇类比任务的准确率和词语相似度的斯皮尔曼等级相关系数。

YJ3mUbz.png!web

图 1:词汇类比任务中,不同 α 值所对应的相对误差减少,原始嵌入的 α = 0。

外部评估

RzIRVji.png!web

表 2:原始嵌入和具备对应 α 值的最佳后处理模型的语义文本相似度结果,衡量标准为皮尔逊相关系数。DAM 分数是 10 次运行的平均得分。

QNbUBfF.png!web

图 3:不同 α 值对应的语义文本相似度结果。DAM 分数是 10 次运行的平均得分。

讨论

我们认为该研究为嵌入编码不同语言信息提供了新的视角,其与内外部评估之间的关系如下所示:

  • 标准内部评估提供的是不同词嵌入模型编码的静态、不完整信息图。

  • 使用预训练嵌入作为特征的监督系统具备足够的表达能力来学习任务的最优相似度阶。

  • 尽管我们的研究展示了嵌入捕获的默认相似度阶对较大的学习系统影响较小,但它未必是最优的整合策略。如果研究者认为某个相似度阶可能更适合某个下游任务,则他/她设计的整合策略很可能鼓励这个相似度阶,我们认为这是未来一个有趣的研究方向。例如,研究者可以设计正则化方法去惩罚预定义相似度阶的较大偏差。

理论 自然语言处理 词嵌入 COLING 2018

相关数据

语料库 技术

Corpora

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

来源: 维基百科

知识库 技术

Knowledge base

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

来源: 维基百科

Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源: 维基百科

参数 技术

parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

来源: 维基百科

正则化 技术

Regularization

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

来源:李航著 统计学习方法 清华大学出版社

词嵌入 技术

Word embedding

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

来源: 维基百科

准确率 技术

Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

来源: Google ML Glossary


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK