2

论文解读Kaleido-BERT——时尚领域视觉-语言预训练模型

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ%3D%3D&%3Bmid=2650429660&%3Bidx=4&%3Bsn=c0c9c4c35d979fe9c0f3a61eb0bedf03
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

论文解读Kaleido-BERT——时尚领域视觉-语言预训练模型

点这里关注我→ AINLP 2022-03-24 04:57

来源:投稿 作者:小灰灰

编辑:学姐

640?wx_fmt=jpeg

论文解读

Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

这是一篇在时尚领域、往细粒度方向做视觉、语言预训练的工作。

640
01网络结构
640

Kaleido-BERT的模型结构图.1。

它包含 5 个步骤: 

(1) 在输入阶段,Kaleido-BERT 有两种模态 的特征输入:文本输入 (e.g., 商品图像描述) 以及由Kaleido图像块生成器 (KPG) 所产生的对应的图像 输入。每个文本描述被表征为一系列的词例 (token),而每一张与文本对应的图 像被表示为一系列Kaleido 图像块。

(2) 在图文特征向量生成的阶段,本研究使用了注意力对齐生成器(AAG)去产生词例与Kaleido图像块的预对齐信息,以便图像和文本隐式地进行语义对齐。

(3) 在交互阶段,与现有的随机掩码策略不同,本文提出采用预 对齐掩码策略 (AGM) 以缓解跨模态语义交互难度。

 (4)词例和Kaleido图像块的特征向量在Kaleido- BERT 得到充分交互后,模型渐进式的学习视觉-语 言的语义信息并产生多模态细粒度表征。

(5) 除了掩码语言模型 (Masked Language Modeling,MLM) 和图文匹配任务 (Image-Text Matching, ITM) 外, 本工作还使用了 5 种新型的预对齐 Kaleido 模型 (Aligned Kaleido Patch Modeling, AKPM),即: 旋转, 拼图, 伪装, 着色和修复任务。

1.1 Kaleido 图像块生成器

以一张商品图片作为输入,并将其送入 Kaleido 图像块生成器 (KPG)。如图.下图所示,KPG使用 了显著性检测网络去提取前景分割图,并以前景图为依据框定主体目标。受空间包络 (spatial envelop)以及分块策略的启发,本文探索将单张图像切分不同的尺度 (即,1×1, 2×2, . . . , 5×5)。

640

这些图像块就是“Kaleido(百变)”图像块。除此之外,也可以根据特定任务的难 度去考虑更为细致的划分 (如 6×6,或像是 Pixel- BERT的 N×N 划分)。

最终,每一张图像被划分为55块Kaleido图像块。为了生成这些图像块的特征向量,本文采用ResNet-50作为骨干网络进行模型的特征提取。

1.2 注意力对齐生成器

注意力对齐生成器 (AAG) 目的是产生文本词例(token)与 Kaleido图像块之间的模糊对齐。如下图中, 直接使用了著名的SAT网络,将其 在 FashionGen 数据集上重新训练。

之后,它作为 文本生成器,自动描述图像的内容。在图像描述阶段,SAT网络会对每一个词例生成注意力热图,以 这些热图为依据可以推断生成的词与图像区域的关 系。

若生成的描述和原本描述有共现的单词,将依照 共现单词的注意力热图来判断该单词倾向于与哪一Kaleido图像块关联。从而得到一部分原始描述中的 单词与 Kaleido 图像块的对齐信息。

640
1.3 预对齐掩码策略

通过注意力对齐生成器,模型获得了关联好的 ⟨token, patch⟩ 对。虽然这些对齐信息并不十分精确,但它提供了不同模态间潜在的语义关联。至此, 可依照这些信息修改原始的随机掩码策略。

将这些信息利用到预训练阶段,它能更好地帮助 Kaleido- BERT 隐式地探索跨模态语义关系。与随机掩码策略不同,预对齐掩码策略 (AGM) 会 给予更高优先级去掩码有预对齐信息的词例或图像块。当选中了某一预对齐 ⟨token, patch⟩ 进行掩码时,会随机掩码图像或文本中的其中一侧,这有利于Kaleido-BERT通过现有信息 (单模态保留的特征) 去推测另一模态丢失的特征。

当所有预对齐图 像文本对都被遍历后,仍然出现没有足够的预对齐图像-文本对进行预对齐掩码策略时,则重新采用随 机掩码策略补足所需要的掩码个数。通过这样的方式,得到了词例 (token) 与图像块 (patch) 的候选掩码。

AGM 策略在 Kaleido 图像块中的 3×3、4×4、 5×5 层级生效。

本文研究工作没有将掩码策略应用 于 1×1、2×2 这两种尺度是因为掩码大的图像块会 增加模型的预训练难度 (且意义不大)。根据经验,本 文分别在 3×3 图像块挑出1块,4×4 图像块挑出2块,5×5 图像块挑出 3 块进行掩码。

1.4 多模态 Transformer

使用原始的 BERT构建多模态Trans- former,这使得 Kaleido-BERT易于开发和迁移。沿用了 FashionBERT  的做法,即将词例序列 (i.e., 由 WordPieces产生) 的位置信息编码为 0,1,2,3,...,N。

在BERT中, 每一个文本训练语料是由其本身的词嵌入、语义特征、位置编码特征相加而来,再接一个归一化层 (LN Layer) 生成最后的特征向量。而对于图像训练特征, 先将每一个图像块的位置信息编码成五维的特征([x1, x2, y1, y2, w ∗ h])。然后将图像块特征与它的位置编码特征分别送入到一个全连接层 (FC),将它们映射到同一个维度上。

最后,采用相加通过全连接层 后的特征 (i.e., FC (seg_id), FC (img_feature), FC (pos_emb))的方式,可以得到每一个图像块的视觉特征向量,最后将它们送入LN层。

1.5 预训练

为了缓解视觉与语言的语义隔阂,促进多模态 表征学习,本文设计了三种训练任务促进预训练过 程,分别是: 预对齐掩码语言模型 (AMLM)、图文 匹配任务 (ITM) 以及提出的预对齐 Kaleido 图像 块模型 (AKPM)

2.1适用任务

1. 文本检索 (ITR)

文本检索作为一种下游任务,需要模型判断一个句子是否准确地描述一张图片。

本文在 Fashion-Gen 采样了一些商品图 像和标题作为图像文本对,并使用原始的产品信息 作为正样本。与此同时,打乱数据集并使用不匹配的图像文本对作为负样本。

为增加难度,正负样本均 采自同样的子类目,因此它们会较难被PTM区分。此外,本文使用 Rank@1, Rank@5, Rank@10 评估 检索性能。

2. 图像检索 (ITR)

图像检索任务以文本描 述为线索,对最相关的商品图像进行排序。

与文本检索类似,本文使用真正的商品图像文本对作为正 样本,并从同子类目中的商品中随机选取100个不相关的描述作为负样本。通过预测样本的匹配分数,本文依旧使用 Rank@1, @5, @10 作为评价指标。

3. 类目/子类目预测 (CR&SUB)

类目是描述商品至关重要的信息,这些信息在现实应用 中非常有价值。

本文使用分类任务来进行此任务, 目的是预测商品的类目和子类目,比如 {HOODIES, SWEATERS}, {TROUSERS, PANTS}。在实施过程中,直 接在 [CLS] 后接一层全连接层来进行该任务。

4. 时尚描述 (FC)

 图像描述生成是一项很重要的研究话题,在计算机视觉领域中也有广泛的工作基于此展开。时尚描述的准确率可以衡量多模态模型的生成能力。

2.2消融实验

有三个影响Kaleido-BERT性能表现的主要因素,它们分别在不同阶段起作用。

输入层: Kaleido 图像跨生成器 (KPG);向量层: 预对齐掩码策略 (AGM);

以及任务层:对齐 Kaleido 图像块模型。

因此本文实施了针对这些因素的消融实验,去进一步分析这些组件/策略。实验的结果展示在表.4和图.7中。

640

论文链接:

 https://arxiv.org/abs/2103.16110

论文代码:

https://github.com/mczhuge/Kaleido-BERT

0?wx_fmt=png
AINLP
一个有趣有AI的自然语言处理公众号:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
343篇原创内容
Official Account
进技术交流群请添加AINLP小助手微信(id: ainlper)
请备注具体方向+所用到的相关技术点
640?wx_fmt=jpeg

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。

640?wx_fmt=jpeg

阅读至此了,分享、点赞、在看三选一吧🙏


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK