3

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘

 1 year ago
source link: https://www.6aiq.com/article/1676809138032
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

导读 大家好,我是腾讯 AI Lab 的蒋海云,今天给大家介绍一下我们在智能写作助手的工作。今天的报告分为四个部分,前两部分介绍 AI 智能写作助手的相关系统;后两部分介绍 AI 写作中比较重要的文本改写功能涉及到的两个关键技术。

全文目录如下:

  1. 文本理解系统 TexSmart 介绍

  2. 智能写作助手 Effidit(文涌)系统介绍

  3. 多级可控的无监督文本改写方法

  4. 文本改写评测思考和一种新的指标


分享嘉宾|蒋海云博士 腾讯 AI Lab 高级研究员

编辑整理|田育珍 猿辅导

出品社区|DataFun


01/文本理解系统 TexSmart 介绍

先介绍一下文本写作助手用到的一些理解的模块,即:TexSmart。

image-65cbe78a952a4c1f86f7933e0e4b860e.jpeg-imageStyle

文本理解系统在智能写作中,提供了基础的语言理解的能力,像:文本图谱、文本理解和文本匹配。文本图类似知识图谱,可以对常见的文本关系进行查询。

在理解系统之上,是今天重点介绍的智能写作助手。目前助手包含:文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。

1. TexSmart 是什么

image-98e0b8a908d94e81830cac1aaf2d3cec.jpeg-imageStyle

TexSmart 是自然语言理解的工具与服务,可以对中文和英文两种语言的文本进行词法、句法和语义分析。功能分为三部分:

  • **文本理解:**分词、词性标注、命名实体识别(NER)、语义联想、句法分析、语义角色标注、文本分类和关键词提取;
  • **文本匹配:**语义相似度匹配,衡量句子的相似度;
  • **文本图谱:**常用文本关系的知识查询。

2. TexSmart Demo

image-5700f4653d0b428ba51c12e8d1d69db0.jpeg-imageStyle

分词和标注就是给一个句子,对句子进行分词并标注词性。TexSmart 提供了不同粒度的命名实体识别。粗粒度 就是我们常见的十几种类别,如:时间、地点等。细粒度包含 1000 多种类别。

image-4091c883a17841c1929420a84d6d5251.jpeg-imageStyle

文本分类大概有十几种。句法分析大家也都比较熟,这里就不做赘述。

image-6d96a430b9b2441282ec941cd50c3e12.jpeg-imageStyle

系统还支持语义角色标注文本匹配

image-e1b340e380a54a32bf0f8c3f747e209a.jpeg-imageStyle

文本图谱包含五类,比如:相似词、上位词、下位词、同义词和反义词。同义词 是语义完全一致的,比如:刘德华的同义词是华仔。相似词 是指同类别下其它比较类似的词,比如:刘德华的相似词是周润发、周星驰。上位词 是知识图谱常用到的实体类型(type),比如:刘德华的类型是演员、艺人。右边是另一个维度可视化的结果。

3. TexSmart 的特色

image-359d8e9239504550a3d7a9635eae27f7.jpeg-imageStyle

接下来介绍一下,TexSmart 和传统的文本理解相比的几大特色。

image-8f8c547064114d0998e42ea33ace494b.jpeg-imageStyle

首先,TexSmart 支持上千种细粒度 NER(细粒度命名实体识别),且各个类型之间具有层级结构,最深可达到七层。

其次,TexSmart 增强的语音理解功能,即:上下文相关的语义联想。比如,NER 识别出刘德华后,可以推荐刘德华相似的词,这个和文本理解中有部分是类似的。

最后,TexSmart 是为了多维度应用需求而设计。在设计时,使用了多种算法,兼容了学术界和工业界的不同需求:对运行速度要求比较高的用户,我们设计了比较浅层的像模型,比如:CRF、DNN;对精度要求比较高的用户,我们设计了基于 BERT 相关的模型。

image-bd89b62b21414e2fbe1f88406cf45346.jpeg-imageStyle

TexSmart 支持 1000 多种类别。

image-e5f6f326abf74c72adba74d3a41912f1.jpeg-imageStyle

TexSmart 支持语义联想,对句子中给定的实体,预测与其相关联的实体集合。

image-77da574eebc549a8b9d3c95a2cfcf275.jpeg-imageStyle

TexSmart 兼顾了学术界和工业界多种不同的需求。

image-980d1c2373b5461aa3ebd7381602c9b7.jpeg-imageStyle

这里介绍一下 TexSmart 的设计理念和实现方法:

  • 针对不同的人群,设计了不同的模型和算法 ,从精度和速度两个维度出发,设计了精度高和速度快的模型。
  • 利用无标注数据训练模型,这会使模型不在特定数据拟合,可以覆盖更多的数据,模型的鲁棒性更好。
  • 通过增量式收集无标注数据,周期性更新模型。

02/智能写作助手 Effidit 介绍

接下来介绍一下智能写作助手,英文叫 Effidit,中文叫文涌。

Effidit 主要功能包括:文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。

image-65cbe78a952a4c1f86f7933e0e4b860e.jpeg-imageStyle
  • 文本纠错包含:删除类、插入类和替换类纠错功能。
  • 文本补全包含:短语补全,根据前缀生成短语;句子补全-检索;句子补全-生成,根据前缀句子续写。
  • 文本润色包含:短语润色,将词替换为更高级的词;句子改写;句子扩写,将短句添加修饰成分使句子的表达更丰满。
  • 例句推荐包括:关键词句子检索,关键词句子生成。
  • 云输入法包括:中英文输入法。
  • 文涌学术版包括:跨语言例句检索、语义增强的论文检索。

1. 文本纠错

文本纠错包含删除类、插入类和替换类纠错功能。

  • 删除类:文本多了一个字,需要进行删除;
  • 插入类:文本中少了一个字,需要添加文字;
  • 替换类:文本中有错别字,需要进行替换。

左下的图 针对这三类分别举了三个例子。第一个是多了一个"要";第二个是少了一个"到";第三个是错别字"旧"改为"就"。右侧是我们的评测集,我们内部做了一个比较客观的评测,可以看到 Effidit 在同类产品中还是占很大优势的。

image-59d2dde19520478687bb7d18ce8b7567.jpeg-imageStyle

英文纠错是我们的特色功能,纠错是可解释的。比如,左下图 需要纠错,在右下图除了进行了纠错,还补充了纠错的原因。

image-4daa04221734401bb5fd316174fd2c6f.jpeg-imageStyle

2. 文本补全

image-eb6b730b7ff445e4ab8d5b7797ce935d.jpeg-imageStyle

英文本补全有两种:一种是后缀补全 ,一种是结合前后语境的句中补全。这里举几个例子。

  • 用户输入"那个大汉被打得",给用户推荐"落花流水"和"措手不及";
  • 用户输入"成都市区",帮用户补全对应区,如:"武侯"、"高新";
  • 用户输入"堡基地建设",帮用户补全"德特里克"、"美国德特里克"。
image-ebf81d9a933242419a687b65a7a18062.jpeg-imageStyle

英文补全其实就是句子续写。比如:用户输入"那个大汉被打得",上面是检索得到的结果,下面是句子生成的结果。可以看到,生成的效果还是不错的。

image-f60fd052f4a14fd88cfd4c4c40af51da.jpeg-imageStyle

在句子补全的基础上,系统还支持风格化 。目前定义了科幻、军事、武侠、官场四种风格。用户可以在网页中选择风格,系统会根据前缀生成对应风格的续写。

3. 文本润色

image-b0863037af544af3b06b18f5421c9ee6.jpeg-imageStyle

文本润色的短语润色是在用户选中句子中的词后,智能推荐更加贴合语境的相似候选词,使整个句子表达更加精准生动。

image-a065a736e887479c936305f4ede94f65.jpeg-imageStyle

句子改写是不改变句子原始语义的情况下,使句子更好。我们还引入句子扩写,即不改变句子语义的情况下,对句子舔砖加瓦,使句子表达更加丰满。

4. 超级网典

image-0f476e36c5484917959273b966b55a9c.jpeg-imageStyle

我们还提供了超级网典功能,可以满足用户对某种特定的词汇查询。用户输入春天,我们可以给用户推荐描述春天的词汇,如:生机勃勃、繁花似锦。针对英文场景,系统还提供了相关词、近义词和相似词。此外,系统还支持双语的词典,用户输入"优点和缺点",可以看到英文条件下的相关词、近义词和相似词。

image-8833680d706f4c12b8c32de2fa242d66.jpeg-imageStyle

除了词级别的推荐,还支持句子级别的推荐。用户输入关键词,检索现有文章中的例子作为例句;同时,还可以将关键词按顺序智能补全,作为完整句子。

5. 云输入法

image-91261a21ed0c408e80dcf00a09a0b888.jpeg-imageStyle

云输入法可以为用户提供更加丰富及精准的候选结果,更高效的输入效率,同时还提供了英文输入法。

6. 文涌学术版

image-f0ca306de68d42b3b83cd5d11aec2143.jpeg-imageStyle

学术版的文涌对写论文很有帮助。有些英文不太好的用户,输入"重要的进展",就可以看到对应的英文表达,以及论文的出处。同时,还支持论文检索。比如,输入一个算法的术语,可以查询到对应的论文。

03/多级可控的无监督文本改写方法

智能写作助手是多模块组成的很复杂的系统,里面涉及到的关键技术非常多。由于时间关系,主要介绍一下文本改写模块的部分关键技术。

image-178705400991461bbdd4e423801db86c.jpeg-imageStyle

文本改写就是输入一段话,输出和输入时语义相关的内容,但表达会有所不同。人类改写过程可以分为不同的层次:

  • 全局语义:通读一遍,理解文本的语义信息;
  • 局部词汇:大脑会决定某些词汇是不能做修改的,比如:人名、地名等关键信息。比如,某个内容是说刘德华的,刘德华就不能变成张学友;
  • 整体风格,在改写的时候,如果有可以参考的范例,可以从中得到一些文字编辑或句式重构的启发。

我们的工作也将从这三个层级展开。

image-f0bcece505a14d5abcf85e6859660286.jpeg-imageStyle

在无监督场景下,MCPG 可以在三个层级(全局语义、局部词汇和整体风格)上进行控制,生成更加可控的复述结果。

左边的 a 图考虑不给示意样本,只考虑全局语义和局部词汇。比如,输入一句话,通过语义解码器可以获得句子的向量表示。并通过特定的方法,把对应的不可修改的关键词显示标记出来。可以设计一个输入是 Embedding 以及一些关键词的解码器。

如果直接把解码得到的内容送入生成器 Generate,生成的内容和原始的句子是一样的。我们发现,对 Semantic 的向量进行 dropout 是一个很有效的方式。通过 dropout,可以使丰富性变强。

我们会发现,p 和输入的内容很像,p 改写的句子是 q。告诉模型 p 和 q 的信息,在训练的时候做到生成的句子和 q 很像。

image-3b55a8d5ec4b4a6bafadca796204f697.jpeg-imageStyle

全局语义控制 可以通过 dropout 扰动的语义编码向量控制全局语音以及输出的多样性。如果 dropout 是 0.05 或 0.01 时,生成的句子和原始句子很像,几乎没什么变化;当 dropout 很大时,原始向量扰动比较大,但对语义的消耗也会比较大。

局部词汇控制 是通过关键词控制事实性变量在复述文本中不发生变化。其中,关键词通过 NER 工具获得。

image-5bb4839e383c401f862b77bce51f1749.jpeg-imageStyle

整体风格的控制,主要是通过转化向量控制输出的。比如,给定一个输入,我们会告诉模型,和输入相近句子的情况,希望模型也可以类似改写。

image-fb554bef8a754aa2bd8e6eea64ed5541.jpeg-imageStyle

上图是模型的结果。

image-7133cd7f533e43649a4bdfa5186406e9.jpeg-imageStyle

可以看到 dropout 对模型的影响还是蛮大的:当 dropout 很大时,生成的句子和原始句子之间的相似度会直线下降。

image-4a7839d0f96e4b5a8788ab02d7136df3.jpeg-imageStyle

平行语料是指基于输入句子后,从多大的空间检索模型输入语料。**可以看到:**语料空间大,和输入语料相同的概率就越大;如果候选集很小,则检索出来的结果也会更不接近。

image-4b6dc42ca0c049978228bb621d809574.jpeg-imageStyle

上图是使用随机关键词对 MCPG-basic 模型性能的影响。

04/文本改写评测思考和一种新的指标

接下来介绍一下文本评测的思考,以及改写评测新指标。

image-a2e5d3e30c9147538b73d43c2873b670.jpeg-imageStyle

目前大家做改写,主要是从模型的角度出发,通过现有经典的指标,如:BLEU、Metric衡量。很少有人思考使用这些指标衡量文本改写的合理性。

这里把文本改写的两个维度列出来:

  • 语义相似度,改写需要保留原句的语义;
  • 多样性,改写需要有明显的多样性(词级别、语法级别)。
image-d1b4ee5df531418488e0da893996e80b.jpeg-imageStyle

刚才提到,现有研究工作中,绝大部分的工作都是致力于提出更加大的模型。这些模型随着时间推移,效果也越来越好。

image-6dfcd52d25c3438e8cb47cd953412f71.jpeg-imageStyle

以往观点把文本改写(Paraphrase)当做单语机器翻译,所以评估的指标都是借用机器翻译的指标,如:Rough、BLEU。但实际上,改写任务和机器翻译任务有着本质区别。文本改写内容的多样性是至关重要的,而在机器翻译任务中不是必须的。机器翻译主要保证翻译的内容和原本的内容的相似度,但不关注内容的多样性。

如何去改善文本改写的评估方法呢?

image-25d40288a0c04acfbccbed1ffd8cd939.jpeg-imageStyle

经过一系列的实验,我们得出了两条反直觉的发现:

  • **绝大多数以往常用的指标在文本改写中表现欠佳。**我们将评测的结果和人工评价的标准进行比对,当差异比较大时,就说明常用指标对于文本改写不适用。
  • 模型在处理时会有 reference。 reference-free 是直接通过输入的句子去判断生成的句子的质量;reference-based是通过 reference 判断生成句子的质量。我们发现,reference-free 的指标好于 reference-based 指标。

根据这两个发现,我们探究出其背后的原因:

  • Reference-free 和 reference-based 的指标取决于数据集中 I 类和 II 类(接下来提及)数据的比例。
  • 以往常用的指标忽略了多样性的测量。
image-f359e8f773374071bd34a71816ff7393.jpeg-imageStyle

接下来介绍一下实验设置。假设输入的句子是 X 和对应的 reference R,我们的目标是评测候选输入 C 的质量。对于每个指标 M,可以有 reference-based 和 reference-free。

在 reference-based 中,候选集输入 C 的质量是和 reference 比较的。在 reference-free 中,候选集输入 C 的质量是和 X 进行比较的。测评使用了 Twitter-ParaBQ-Para 两个数据集。通过 Metric 分数人类标注分数的相关系数进行评价

image-2c073e15e8a64c7e8ccc341bae3684f8.jpeg-imageStyle

红色的数据表示,大部分 reference-free 的效果比 reference-based 好。另外,机器评分和人工评分的一致性比较低。这个图就得到我们刚说到结论:

  • **大多数常用指标和人类评估并不一致。**在 Twitter-Para 上,BLUE-4 甚至显示出与人类注释的负相关关系。
  • 另外,对于大多数指标,其 reference-free 的变体比 reference-based 更符合人类评估。
image-26e0d6f1223e43f29dfbba88a53c23d8.jpeg-imageStyle

我们通过数据观察发现一个现象,**当候选 C 和 R 距离很远,reference-free 更好;当 C 和 R 很近,此时 reference-based 更好。**我们也因此将数据分为 I 类和 II 类。

image-3eb27b0fca904c35b17d103ab7723b87.jpeg-imageStyle

我们做了一个实验,数据表明:对于候选 C 来说,如果 C 和 R 的距离明显大于 C 和输入 X 的距离,那么 reference-based 的度量会优于 reference-free 的度量。

image-533982d8d97a401f9f71f4bfa4a1be81.jpeg-imageStyle

这个是实验的结果。

image-917f5fdc129844a2932ab74da9bd0fd5.jpeg-imageStyle

现有文本改写的质量主要考虑语义相似度和多样性。以往指标主要考虑相似度,很少考虑多样性。

image-e11c279263f9404f93fa520a8468f687.jpeg-imageStyle

实验结果表明,所有指标的相关分数都是负的。这说明,对文本改写的评价指标在描述多样性上表现较差。但多样性对文本改写是非常重要的。

image-071990a70a33420ca278df93aadddcd6.jpeg-imageStyle

因此,我们提出了新的指标 ParaScore。整个得分分为相似度 Sim多样性 DS两部分。

image-98aa9b625a3d414289a0ea0f903b1768.jpeg-imageStyle

这里还有个变体版本,当 C 跟 X 比较近时退化为 reference-free 版本;当 C 跟 R 比较接近时,则为 reference-based 版本。同时,引入 DS,来提升模型多样性。

image-2e0ba00e53ab45f9b954376ff313956c.jpeg-imageStyle

在两个数据集上,Pearson 和 Spearman 系数的一致性就好了很多。但这些评测指标还是有很大研究空间的。

image-920e16878a784a33a9eb2ab46f25f693.jpeg-imageStyle

消融实验结果表明,ParaScore 的设计对 ParaScore 的有效性至关重要。

这个是相关系统的链接,上面是系统的微信群,下面是我的微信,欢迎大家多多交流。

今天的分享就到这里,谢谢大家。


分享嘉宾

image-3262dd5f2f5f41ccaaf3f7bfc1c9cc41.jpeg-imageStyle

蒋海云 博士|腾讯AI Lab 高级研究员

蒋海云, 2020 年博士毕业于复旦大学数据科学方向,主要研究包括知识图谱、文本理解,文本生成等,在 ACL、EMNLP、IJCAI、AAAI、ICDE 等会议发表论文27篇。


《数据智能知识地图》下载

上下滑动⬆️⬇️,查看《数据智能知识地图》预训练模块,完整版请关注公众号"大话数智"下载

image-977cebefa90b43098d7d296db5abe74e.jpeg-imageStyle

DataFun新媒体矩阵

image-2bb20b155e29424c9807e69c7b389547.jpeg-imageStyle

关于DataFun

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK