首届欧洲NLP会议EurNLP2019落幕，有什么独特之处吗？

AzquyaZ.jpg!web

作者 | Wei Zhao

编译 | 杨晓凡

编辑 | 唐里

前有美国、加拿大引领理论创新，后有中国在实际应用上紧追猛赶，欧洲学术圈在深度学习时代的存在感并不怎么强。一个这样的会可以看做是报团取暖，更可以看做是鼓励更多交流和创新。

在深度学习的热潮推动下，人工智能的各个相关领域都展现出勃勃生机，学术会议也一个紧接着一个。今年十月上旬，在甘肃敦煌举行的以中文语言计算为特点的 NLPCC 2019 才刚刚落幕，首届欧洲 NLP 会议 EurNLP 就于 11 日在英国伦敦举行。根据会议官方介绍，EurNLP 关注学术界和工业界出现的真实世界 NLP 问题，让欧洲的青年学者和专家们齐聚一堂，讨论基础科研和实证研究话题。

本次为期一天的首届 EurNLP，暨 EurNLP 2019，有大约 200 人参加，共收到 179 篇有效论文投稿，接收论文 57 篇（接收率 31.8%）。会议议程包括 1 个大会报告、4 场论文报告以及 1 个圆桌讨论。除此之外，会议也安排了一个论文海报讨论环节，供学生、研究者们可以自由地展开讨论；这些论文的主题也多种多样，包括了多语言性、语言中的偏倚、机器学习、多模态、文本生成等等。

德国达姆施塔特工业大学的 Wei Zhao 现场参加了 EurNLP 2019，并和德国海德堡大学&哈尔滨工业大学的 Haixia Chai 共同撰文写下了他们的参会见闻和亮点总结，这篇文章主要介绍了演讲和圆桌部分。AI 科技评论进行了全文翻译，有部分删改。

Vera Demberg：NLP 是否需要更多地考虑语言处理中的具体区别？

在演讲中，Vera Demberg 讨论了人类标注中出现的不统一问题，研究了人类标注的变化是否是系统的、是否在不同的时刻保持一致、是否和特定的因素相关（比如语言经验和任务知识）。 Scholman 和 Demberg 的论文表明不同的参与者在连词填空问题中给出的答案有很大的区别，而 Sanders 等人让参与者前后间隔几个月做重复做同一个实验，表明人类标注员的表现不会随着时间变化。

ne22QjB.jpg!web

Dirk Hovy：层数越多，责任越大

这个演讲中解释了各种可能带来模型偏倚的因素，比如数据选择、人类标注以及模型变化，而且介绍了过去几十年中从启发式的、基于逻辑的模型，到统计性的、神经网络形式的模型的 AI 发展历程。他着重强调了一个观点：现代的神经网络模型可以处理语言生成之类的真实世界的复杂问题，但是想要解决我们目前遇到的可信任、可解释、可靠性、公平性问题还远远不够。

Joakim Nivre：有监督句法分析快要寿终正寝了吗？还有大概 12 年吧

这个演讲是关于依存句法分析的。演讲中首先回顾了依存句法分析的历史，包括了基于图的（graph-based）和基于转换的（transition-based）分析器。 Kulmizev 等人的论文表明这两类解析器在短程依存关系上有类似的表现，但是随着依存关系的长度增加，基于转换的分析器由于错误传播的原因会出现更明显的表现下降（如下图）；另外，这两种方法在运用在 BERT 模型中时的准确率区别并不大。Joakim Nivre 希望未来的句法分析可以找到结构预测的一些替代方法，而且最好能够不再需要显式的监督。

Un2Yn2U.png!web

Bonnie Webber：隐式论述关系可以和显式关系共同存在

在这个演讲中，Bonnie Webber 介绍了显式信号和隐式推理会让论述关系的标注有所不同。这篇论文通过介词填空任务的实验表明了这一点。下图展示了某个例子中不同的标注员会给出不同的答案，但这些不同的答案可能并不是错误。

F32mMfZ.jpg!web

Natalie Schluter：神经网络句法解析看起来真简单，真的是这样吗？

这个演讲的重点是基于图神经网络的解析器的计算复杂度问题，Natalie Schluter 给出了一种正式的证明，证明在指数时间猜想（Exponential Time Hypothesis）下，射影最大生成树（maximum spanning tree）的解码算法无法在小于三次方时间内完成，Natalie Schluter 还讨论了 Eisner 算法以及用循环神经网络模拟它的方法。详细内容可以参见论文。

Gemma Boleda：分布式表征中的通用信息以及特定情境信息

演讲中讨论了分布式表征中的通用信息以及特定情境下的信息之间的互动，并且介绍了这个研究方向上的两个最新成果。其中第一个是关于短期含义漂移（见下图），是指可以通过测量内容可变性的方式来识别语义变化；第二个是关于基于 LSTM 的语言模型中的词汇模糊性，作者们提出的模型可以探测出 LSTM 模型中隐含的词汇表征以及单词的上下文信息。

EjiUrei.jpg!web

Reut Tsarfaty：空元素计划

Reut Tsarfaty 介绍了 Paul Grice 提出的逻辑和对话问题，比如“不要让产出结果增加不需要的信息量”，也就是说任何多余的信息都可以被正当地丢掉；然后讨论了文本句子之间的空元素，比如去掉动词（如下图），然后列出所有可能的空元素形式。

jIZ36fr.png!web

2aI73qN.jpg!web

Lucia Specia：人机对话需要发展出更全面的方法

演讲讨论了针对模态文本的机器翻译，指出当输入文本短、有噪声、意义含混不清等等时，多模态学习是一种有效的应对方式。详细可以参见 NAACL 2019 论文以及 ACL 2019 论文。

André Martins：超越 Sparsemax - 自适应稀疏 Transformer

André Martins 介绍了传统 softmax 的一个替代方案 sparsemax ，它可以把 softmax 得到的正态概率分布映射到单纯形（simplex）中的概率分布，也就意味着它可以输出稀疏的概率。从 sparsemax 推导的损失函数是凸性的，且处处可微。这个方向上的更多成果包括正则化 argmax 上的泛化，以及 α-entmax 变换。

Angela Fan：在推理时剪枝 Transformer 模型

Angela Fan 指出了神经网络模型的主要几个挑战，包括过度参数化、冗余、过拟合，以及大模型难以投入实际使用，然后讨论了知识蒸馏、剪枝之类的减少模型资源消耗的方法。演讲中她重点阐述了针对 Transformer 模型的一种剪枝方法 LayerDrop ，在训练的时候随机丢弃 Transformer 中的层，网络表现只有很小的损失。网络压缩的类似成果还有 DistilBERT、TinyBERT 等等。

vIFJzay.jpg!web

Rico Sennrich：自然语言处理中的 Transformer 模型都学到了什么？模型分析带来一些新的见解

这个演讲讨论了关于 Transformer 模型的一些开放问题，比如，如何识别模型中重要的注意力头，以及如何在没有表现损失的前提下对不重要的注意力头剪枝。目前认为位置性的、语法性的、以及能感知不常见的词汇的头可能是比较重要的（如下图）。除此之外，下图还显示出其实可以把大多数头都剪枝掉，爱来的表现下降很小。Rico Sennrich 介绍的另一篇论文是关于 Transformer 模型中的表征的演化的，回顾了针对不同的学习目标训练 Transformer 模型时它学到的表征有何不同（比如用于机器翻译、语言模型以及掩蔽语言模型）

j22Mfyf.png!web