ACL 2019论文分享：百度阅读理解知识和文本融合模型KT-NET

ACL 2019 收录论文分享：《 Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension 》。

nAFzIfn.jpg!web

机器阅读理解(Machine Reading Comprehension) 是指让机器阅读文本，然后回答和阅读内容相关的问题。该技术可以使机器具备从文本数据中获取知识并回答问题的能力，是构建通用人工智能的关键技术之一，长期以来受到学术界和工业界的广泛关注。

uA3mMvi.jpg!web

图1 机器阅读理解示例

一、研究动机

近两年，预训练语言表示模型在机器阅读理解任务上取得了突破性进展。通过在海量无标注文本数据上预训练足够深的网络结构，使当前最先进的语言表示模型能够捕捉复杂的语言现象，更好地理解语言、回答问题。

然而, 基于语言表示的机器阅读理解模型通常还是从词法、句法层面抽取答案，缺乏相应的背景知识以支撑对问题的深度理解和精准回答。图2展示了一个知识依赖的机器阅读理解案例，其中，仅基于语言表示的模型在海量文本上学习到语言规律，对篇章中的「他」进行了错误的指代消解，从而定位到错误的答案。而知识图谱中背景知识的引入则能很好地帮助模型纠偏，给出正确的答案。从这个例子不难看出，真正意义上的阅读理解不仅要求机器具备语言理解的能力，还要求机器具备知识以支撑复杂的推理。

ua6b6fv.jpg!web

图2 知识依赖的机器阅读理解示例

二、技术方案

基于上述观察，百度开创性地提出语言表示与知识表示的深度融合模型KT-NET ，希望同时借助语言和知识的力量进一步提升机器阅读理解的效果。相关论文《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》已被ACL 2019大会录用。

KT-NET的模型架构如图3所示，从下至上依次为文本/知识表示层、知识融合层、自注意力层和线性预测层。 文本/知识表示层 针对给定的问题篇章和结构化知识图谱，分别利用语言表示模型和知识表示模型对两者进行编码，得到相应的文本表示和知识表示。

qEbUvia.jpg!web

图3 KT-NET:语言表示与知识表示的深度融合模型

知识融合层 通过注意力机制从知识图谱中自动筛选并整合与问题篇章高度相关的知识。具体地，针对问题篇章中的每个词 i ，利用注意力机制对其相关实体表示加权求和，得到当前词的知识表示 Ki 。再将每个词的知识表示和文本表示进行简单拼接，得到融合向量。

自注意力层接收融合向量后，通过双层自注意力匹配，建模文本表示和知识表示的多重交互，实现两者的深度融合。最后， 线性预测层 基于文本和知识的深度融合表示进行预测，实现知识指导的答案边界定位，提升答案的准确性。

三、实验结果

图4展示了KT-NET在常识推理阅读理解数据集ReCoRD和斯坦福问答阅读理解数据集SQuAD1.1上的实验结果。在两个数据集上，KT-NET模型效果均显著优于其他模型，证明了知识对于机器阅读理解的必要性和有效性。无论是语言学知识(WordNet) 还是世界知识(NELL) 均能在该任务中发挥重要作用。 截止到 发稿日 ，KT-NET仍然是常识推理阅读理解数据集ReCoRD榜单上排名第一的模型，并在此前很长一段时期内都是SQuAD 1.1榜单上效果最好的单模型。

A7fMVnb.jpg!web

图4 KT-NET在ReCoRD和SQuAD1.1数据集上实验结果

论文进一步对KT-NET的模型能力进行了可视化分析。首先是知识融合层注意力机制可视化。图5(a) 给出四个词作为示例，每个词展示其关注度最高的三个相关实体或概念。可以看到， 注意力机制确实能有效鉴别候选实体与当前词的相关程度 ，形成可靠的实体知识整合。接下来考察KT-NET模型最终学习到的深度融合表示。基于该表示，计算问题词和篇章词的相似度并以热图展示 (见图5(a))。结果表明，相比于无知识指导的语言表示模型(见图5(b))， KT-NET学习到的深度融合表示能够更加有效地捕捉词汇相似度，例如，sponsor与support、administration与government、ban与sanctions等词对间均体现出了较高的相似度，这也与它们在WordNet知识图谱中存在紧密关联相吻合。

ieYnyiQ.jpg!web

图5 KT-NET模型能力可视化分析

结束语

考虑到语言理解对知识的依赖性，百度提出语言表示与知识表示的深度融合模型KT-NET，同时借助语言与知识的力量提升机器阅读理解效果。该项技术可应用于百度搜索问答、智能音箱等产品中，直接精准定位用户输入问题的答案，并在搜索结果首条显著位置呈现或通过语音播报呈现给用户，为用户节约大量的宝贵时间。

至此，《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》论文的分享到此结束，敬请期待更多百度NLP最新前沿进展分享。

【推荐阅读】点击查看↓

二、技术方案

三、实验结果

✦ ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

✦ ACL 2019论文分享：让机器有自主意识的和人类对话

✦ ACL 2019论文分享：自我进化的对话机器人

Recommend

Flask Babel 使用

SneakyEXE：一款嵌入式UAC绕过工具

Towards Size Types in Futhark

云服务器使用教程-基于 CentOS 搭建 FTP 文件服务

通过 profiling 定位 golang 性能问题 - 内存篇

6 Techniques Which Help Me Study Machine Learning Five Days Per Week

MyBatis 想启动？得先问问它同不同意

为什么双重检查锁模式需要 volatile ？

Translingual - Multilingual transliteration - Phonetic translation using transcr...

银行流水号引发的 PHP 编程思考与实践

About Joyk