6

VinVL:恢复视觉语言模型中的视觉表示

 2 years ago
source link: https://panchuang.net/2021/10/04/vinvl%ef%bc%9a%e6%81%a2%e5%a4%8d%e8%a7%86%e8%a7%89%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e4%b8%ad%e7%9a%84%e8%a7%86%e8%a7%89%e8%a1%a8%e7%a4%ba/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

VinVL:恢复视觉语言模型中的视觉表示

fendouai • 2021年10月4日 am5:03 • Medium

在这篇文章中,我们将探讨最近发表的VinVL论文。本文介绍了一种新的目标检测模型,该模型能产生更好的视觉特征。令人惊讶的是,这些更好的视觉功能在七个视觉语言(VL)任务上带来了最先进的性能,如视觉问答(VQA)、GQA、NVLR2、COCO文本图像检索、COCO图像字幕和NoCaps。作者在LINK上发布了代码。link

自然语言处理的前期训练

在冒险进入新的令人敬畏的对象检测模型之前,该模型负责生成视觉特征。让我们来了解一下这些视觉功能是如何使用的。新的目标检测模型产生的视觉特征被用于视觉语言预训练(VLP)。VLP本身就是从自然语言处理(NLP)领域借来的一个概念。

在NLP中,模型(例如,BERT)在较大的文本语料库数据集(没有标签)上进行预训练,然后在问题回答或语义分类等“下游”任务的较小的标签数据集(这称为微调)上进行训练。预训有几个好处。首先,我们可以从互联网上收集大量未标记的文本数据,如维基百科文章。预训练不仅节省了标注数据的成本,而且发现该模型学习了更好的文本表示,这导致了许多NLP任务中的最新水平。

VLP借用了这个概念,在更大的、易于收集的图文数据集上预先训练模型。该预先训练的模型可以在较小的下游任务数据集上进一步训练。

一种新的目标检测模型

新的目标检测模型为图像生成更丰富的视觉表示,然后用于预训练。图1显示了由经典目标检测模型生成的视觉特征与提出的目标检测模型之间的差异。它在包括COCO、OpenImagesV5、Objects365和Visual Genome在内的四个公共数据集上进行了训练。

有趣的是,新的目标检测模型还采用了类似于VLP的预训练和微调策略。这是因为所有四个公共对象检测数据集都具有不同级别的注释、不同的数据大小和对象词汇表。在所有四个数据集中,只有视觉基因组(VG)数据集包含对象及其属性的详细而丰富的注释。VG数据集通过不同的关系将区域/对象与属性联系起来,如图2所示。首先,对象检测模型在所有四个数据集上进行训练,然后在Visual Genome数据集上进行微调(在较小的数据集上进行训练),并增加一个属性分支,使其具有检测对象和属性的能力。

训练前数据集是所有4个数据集的平衡组合。首先,作者对Object365和OpenImagesV5执行类感知采样,以获得每个类至少2000个图像或实例。这将分别产生2.2M和0.8M的图像。其次,作者将所有四个数据集合并为8个COCO副本、8个VG副本、2个类感知采样Object365副本和1个类感知采样OpenImagesV5副本。如果匹配,则将它们的类组合在一起,否则,如果不匹配,则创建新类。如果您感到困惑,请不要担心,这里所做的基本上是从所有4个数据集中仔细选择图像,以确保它们是平衡的和良好合并的。

作者使用了ResNeXt-152C4的模型体系结构。选择C4而不是FPN。这次选择的原因有两个。首先,研究发现,对于视觉语言(VL)任务,C4比FPN产生了更好的视觉特征。这是因为C4在ImageNet上接受了预先培训,而FPN没有。再一次,我们遇到了预训。

(可选)到目前为止,有3个级别的预培训。(1)目标检测模型在ImageNet(比4个目标检测数据集大得多)上进行预训练;(2)目标检测模型在4个目标检测数据集上进行预训练,然后在更详细的Visual Genome数据集上进行微调,从而能够根据其属性预测目标。(3)利用目标检测模型生成的特征对模型进行预训练(VLP),然后将模型微调到后续任务,如图像字幕。我们可以得出结论,任何形式的前期培训至少都是有益的。

其次,C4使用的卷积头比FPN使用的MLP头具有更好的感应偏置,而MLP头丢失了空间信息。

在预训练期间,作者冻结了第一个Conv层、第一个剩余挡路层和所有批规范层。此外,还采用了水平翻转和多尺度训练等数据增强技术。作者从ImageNet-5K检查点初始化模型主干。该模型被训练为1.8M次迭代,批大小为16幅图像。

目标检测模型生成视觉特征,包括:1)检测到的目标名称;(2)区域特征集。区域特征由最后一层检测头的输出、边界框和区域的高度和宽度组成。注意,区域指的是利用图像中对应的边界框检测到的对象。

OSCAR+预培训

在本节中,我们将探讨名为OSCAR+的多层转换器模型上的视觉语言预培训(VLP)。它是奥斯卡的改良版。我们不会在这篇文章中报道奥斯卡,也不会让读者参考[3]。这一部分是为了证明使用新的目标检测模型产生的视觉特征对下游VL任务是有益的。[3]

VLP对预训和下游VL任务使用相同的模型。目标是学习具有与下游任务目标相关的目标的联合图文表征。首先,我们需要建立一个预训练图文语料库或数据集。训练前数据集由3种下游任务数据集合并而成:

前两个数据集可以准备成{标题,图像标签,图像特征}格式。VQA数据集可以准备成{问题、答案、图像功能}。标题、图片标签、问题和答案都是文字。而图像特征是由目标检测模型生成的。

造成训练前损失的有两个训练前任务。MTL指的是掩蔽令牌丢失,CL3指的是3向对比丢失。我们将探索这两项培训前的任务。

这是用来为NLP预训Bert的。简而言之,这是一项“填空”的任务。输入文本标记被随机屏蔽,并替换为由[掩码]表示的特殊标记。该模型需要根据周围的令牌和图像特征来预测这些被屏蔽的令牌。

2.三向对比损失

其概念是图像-文本匹配。该模型预测文本和图像特征是否来自同一图像(即,匹配)。作者污染了训练样本,创造了反面教材。例如,作者用不匹配的文本污染或更改标题和答案。该模型预测样本是否匹配(class=0)、是否包含受污染的标题(class=1)或是否包含受污染的答案(class=2)。这是一个三级多级分类。

希望通过对这两个任务的预训练,该模型能够学习输入的文本成分和图像成分之间的关系,并生成更好的联合图文特征,这些特征对后续的视觉语言任务是有用的。

OSCAR+对下游VL任务进行了微调,在包括VQA、GQA、图像字幕、NoCaps、图像检索、文本检索和NLVR2在内的7个VL任务上优于以前的最先进型号(SOTAS)。

文中给出了相当多的结果和烧蚀研究。我们不会在这里逐一介绍它们。相反,我们将列出一些重要的外卖。

总之,新的目标检测模型在不经过预训练的情况下,利用新的目标检测模型的视觉特征,已经导致了性能的提高。在预培训期间使用这些视觉功能可以在所有七个VL任务中实现最先进的技术,而无需设计专门的模块或使用集成模型。

参考文献:

[1]VinVL:重访视觉语言模型中的视觉表示。https://arxiv.org/abs/2101.00529https://arxiv.org/abs/2101.00529

[2]视觉基因组https://visualgenome.org/https://visualgenome.org/

[3]OSCAR:视觉语言任务https://arxiv.org/abs/2004.06165的对象语义对齐预训练https://arxiv.org/abs/2004.06165

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/04/vinvl%ef%bc%9a%e6%81%a2%e5%a4%8d%e8%a7%86%e8%a7%89%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e4%b8%ad%e7%9a%84%e8%a7%86%e8%a7%89%e8%a1%a8%e7%a4%ba/


Recommend

  • 38

    相关新闻:视觉中国网站已小范围恢复上线部分账号可正常登陆4月21日下午消息,据媒体报道,视觉中国PC端网站已经小范围恢复上线,部分有效账号可正常登陆。对此,视觉中国官微回应称,公司进行阶段性内部整改测试已结束,网站并未恢复上线。视觉中国承诺

  • 49

    驱动中国2019年5月13日消息   视觉中国网站已于5月12日零点正式恢复上线运营。 5月11日晚间,视觉中国影像官方微博发布声明称,自4月11日主动暂停网站运营以来,在网信、版权等政府有关部门指导下,成立了专项工作组,围绕提高内容审核...

  • 51

    来源:海宁日报5月16日下午,海宁市人民法院开庭审理了一起著作权侵权纠纷案,案件的原告就是近期备受社会公众关注的“视觉中国”。这起案件的起因是,海宁一家医院因为在官方微信中使用10张图片,被视觉中国集团下的汉华易美(天津)图像技术有限公司以

  • 67
    • 新浪科技 tech.sina.com.cn 5 years ago
    • Cache

    恢复8天之后 视觉中国网站今再度关停

    来源|记者站(ID:jizhezhan001)作者|张江 5月20日,蓝媒汇·记者站注意到,刚刚恢复的视觉中国官网再次关停,页面信息显示:“我们正在对网站进行系统升级,在此期间,网站将暂停访问”。就约一周前,5月12日零点,关停了

  • 20

    站长之家(ChinaZ.com) 2月3日 消息:目前,视觉中国网站已恢复访问。 去年12月,针对违规从事互联网新闻信息服务、违规与境外企业开展涉及互联...

  • 58

    《投资壹线》葛凡梅被按下暂停键的国内“视觉之王”重新启动,视觉(中国)文化发展股份有限公司(以下简称“视觉中国”;)的网站终于恢复正常运营。3月20日早间,视觉中国公告称,公司的主网站在经过了2020年2月4日的试运营后,自即日起恢复正常运

  • 4

    C语言函数究竟应该使用 0 还是 1表示成功? 发表于 2019-10-29 08:10:54...

  • 4

    深入了解视觉语言模型 人类学习本质上是多模态 (mu...

  • 7

    谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强 作者:机器之心 2023-10-17 12:52:00 在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。...

  • 2

    智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答 ...

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK