6

ExtraPhrase:一种针对抽象式(生成式)摘要的数据增强方法

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ%3D%3D&%3Bmid=2650429008&%3Bidx=4&%3Bsn=4322341342e8fb64951664aa8c527523
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

ExtraPhrase:一种针对抽象式(生成式)摘要的数据增强方法

AINLP 2022-02-10 07:10

The following article is from NLP工作站 Author 刘聪NLP

640?wx_fmt=jpeg

大家好,我是刘聪NLP。

昨天在刷arxiv时,发现一篇针对抽象式(生成式)摘要的数据增强方法-ExtraPhrase,今天分享给大家,全名《ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization》。

paper:https://arxiv.org/pdf/2201.05313.pdf

在预训练语言模型横行的时代,利用大量并行数据训练的深度学习模型已经在抽象式(生成式)摘要任务中取得了惊人的效果,例如:BART、MASS、T5等模型;然而,大规模语料库的构建成本高且具有挑战性。该论文引入了一个低成本且有效的策略-ExtraPhrase,以增加模型训练时所需的训练数据。

ExtraPhrase方法主要由两部分组成:(1)Extra表示Extractive Summarization,即对原始文档进行抽取式摘要,也就是对原始文档进行信息压缩;(2)Phrase表示Paraphrasing,即对压缩后的的抽取式摘要内容进行回译,将摘要内容进行有效的改写,增加数据多样性。

ExtraPhrase方法如下图所示,

640?wx_fmt=png
  • Extra:在这个步骤中,提取给文档中每个句子的重要部分,也就是对原始句子进行压缩。采用的方法,是一种不需要任何平行语料训练的方法-「基于句子语法树的规则方法」。首先,解析给定的句子以获得它的依赖树(利用spaCy工具);然后,对依赖树进行修剪(删除深度超过一半的节点),得到一个较小的有根子树;最后,对提取的根子树进行线性化,得到其序列化表示。
  • Phrase:Extra中构建的摘要只包含原始句的词汇。为了增加摘要的多样性,对摘要进行回译。使采用一个公开的翻译模型,将Extra中每一个句子,先从英语翻译成德语,在从德语翻译成英语。

以下几点需要注意:

  • ExtraPhrase方法中,都是针对句子进行操作,但是原始文档是由多个句子组成,并且不是所有句子均有意义。因此,在数据增强生成伪摘要时,仅对前三个句子进行操作。
  • 在Extra阶段,采用基于句子语法树的规则方法是为了减少数据构造的成本,当然更好的Extra方法,可以使效果更好。
  • 在训练过程中,对于所有的伪训练数据,在原始文档前面附加一个特殊标记<pseudo>。

在Gigaword和CNN/DailyMail两种数据集上进行实验,并且对比方法包括:Oversampling、Back-translation、Self-training,如下图所示,

640?wx_fmt=png
  • Oversampling:过采样方法,是数据增强的最简单方法,从原始训练数据中采样文档-摘要对,并将采样的实例添加到训练数据中。
  • Back-translation:反向翻译,是序列到序列任务中广泛使用的数据增强的方法,针对原始训练数据,训练通过摘要生成文档模型;然后将训练数据中摘要输入模型,生成伪文档,构建伪文档-摘要数据。
  • Self-training:在自训练中,针对原始训练数据,训练通过文档生成摘要的老师模型;然后将训练数据中文档输入模型,生成伪摘要,构建伪文档-摘要数据。

模型训练采用Transformer模型,结果如下表所示,在标题生成任务和摘要生成任务上均取得较好的效果。

640?wx_fmt=png
为了验证低资源的情况下的效果,针对训练数据,随机挑选1K数据作为训练数据,剩余训练数据用于生成伪数据;结果如下表所示,在低资源情况时ExtraPhrase方法提升更显著。
640?wx_fmt=png
比较ExtraPhrase方法生成伪摘要的多样性,采用BERT模型进行语义评判,并采用BLEU进行字面评判;如下表所示,ExtraPhrase方法和Self-training方法生成的伪摘要与真实摘要的语义相似程度很高,但是ExtraPhrase方法在表达上的多样性要比Self-training方法高很多。
640?wx_fmt=png
由于摘要生成文档过程中,缺少很多关键信息,因此Back-translation方法的不足也很明显。通过下表可以看出,对越长的文档,生成伪文档的差异越大,会导致信息明显不对称。
640?wx_fmt=png
最终,比较三种方法的时间成本和金钱成本,由于ExtraPhrase方法不需要额外的训练,因此,可以明显降低数据增强的成本。
640?wx_fmt=png

个人认为该论文中针对抽象式摘要的数据增强方法还是有很多可取之处的,但是Extra是可以通过更好的方法做优化的。

放假ing,但是也要学习。

0?wx_fmt=png
AINLP
一个有趣有AI的自然语言处理公众号:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
342篇原创内容
Official Account
进技术交流群请添加AINLP小助手微信(id: ainlper)
请备注具体方向+所用到的相关技术点
640?wx_fmt=jpeg

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。

640?wx_fmt=jpeg

阅读至此了,分享、点赞、在看三选一吧🙏


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK