手残党福音：一键抠图、隔空移物，这篇CVPR华人论文帮你搞定

世界上从来不缺少抠图工具，但始终缺少更完美的抠图工具（尤其是对于手残党来说）。

AnQZRzZ.jpg!mobile

在传统年代，人们能想到最精准的抠图方法，大概是 Photoshop 之类的专业图像处理软件，显然这种处理方式会很繁琐。随着人工智能技术的发展，从业者开始尝试将最先进的机器学习技术融入到图像处理工作之中。这些开源算法最终变成了各种各样的在线抠图程序，最重要的是——它们的操作方法非常简单且完全免费。

比如「Remove.bg」，你只需要上传图片，网站就能识别其中的主体并去除背景，最终返回一张透明背景的 PNG 格式图片。尽管在前景与背景之间边界处理上存在瑕疵，但借助 AI 来抠图确实比自己动手要便捷，不是吗？

Ybiueuz.png!mobile 网站地址： https://www.remove.bg/

近日，一款名为「ObjectCut」的图像处理新工具进入了大家的视野。你甚至不需事先将图片下载到本地，只需要输入图片网址，即可得到一张去除背景后的图片。

6FbqYzz.png!mobile

https://objectcut.com/

使用教程演示。

项目作者表示，这一工具所使用方法基于 CVPR 2019 论文《BASNet: Boundary-Aware Salient Object Detection》，并使用了一些相关的公开数据集来进行训练，包括 ECSSD、SOD、DUTS 等。

A773ymm.jpg!mobile

论文地址： https://openaccess.thecvf.com/content_CVPR_2019/papers/Qin_BASNet_Boundary-Aware_Salient_Object_Detection_CVPR_2019_paper.pdf

巧合的是，前段时间在社交网络上大火的「隔空移物」神器 AR Cut & Paste ，也是基于 BASNet 来执行显著目标检测和背景移除的，不管是盆栽、衣服还是书本，可见即可拷，一键操作就能将任何主体挪进 Photoshop 变为图像素材。

所以，大家都在用的 BASNet，为何如此神奇？

BASNet 论文详解

深度卷积神经网络已经被用于显著目标检测（Salient object detection），并获得了 SOTA 的性能。但先前研究的重点大多集中在区域准确率而非边界质量上。

因此，在本文中，来自加拿大阿尔伯塔大学的研究者提出了一种预测优化架构 BASNet，以及一种用于边界感知显著目标检测（Boundary-Aware Salient object detection）的新型混合损失。论文的第一作者秦雪彬曾就读于山东农业大学和北京大学，现在是阿尔伯塔大学的博士后研究员。

具体而言，该架构由密集监督的编码器 - 解码器网络和残差优化模块组成。它们分别负责显著性预测和显著图优化。混合损失通过集合二进制交叉熵（Binary Cross Entropy, BCE）、结构相似性（Structural SIMilarity, SSIM）和交并比（Intersectionover-Union, IoU）损失，指导网络学习输入图像和真值（ground-truth）之间的转换。

借助于混合损失，预测优化架构能够有效地分割显著目标区域，并准确地预测具有清晰边界的精细结构。

在六个公开数据集上的实验结果表明，无论是在区域评估还是在边界评估方面，该研究提出的方法都优于当前 SOTA 方法。

如下图 2 所示，本研究提出的 BASNet 包含两个模块，分别是预测模块（Predict Module）和残差优化模块（Residual Refinement Module, RRM）。

预测模块是一个类 U-Net 的密集监督式编码器 - 解码器网络，它学习预测出自输入图像的显著图；多尺度残差精炼模块通过学习显著图和真值之间的残差来优化预测模块得到的显著图。

YVRbQv7.png!mobile

BASNet 整体架构。

预测模块

受 U-Net[57] 和 SegNet[2] 的启发，研究者在设计中将显著目标预测模块作为编码器 - 解码器网络，因为这种架构能够同时捕获高级全局上下文和低级细节。为了减少过拟合，每个解码器阶段的最后一层都受到了 HED[67] 启发的真值的监督。编码器部分具有一个输入卷积层和六个由基本残差块组成的阶段。输入卷积层和前四个阶段均采用 ResNet-34[16]。

优化模块

优化模块（RM）[22, 6] 通常被设计成残差块，通过学习显著图和真值之间的残差 S_residual 来细化预测的粗略显著图 S_coarse，其中：

b63UriE.png!mobile