指哪分哪：交互式分割近期发展

EnAnQz.gif!mobile

©PaperWeekly 原创 · 作者｜武广

学校｜合肥工业大学硕士生

研究方向｜图像生成

图像分割在深度学习的加持下精度性得到不断的提高，主要的分割任务集中在全自动分割的方法下进行，然而一些特定的任务往往是自动分割方法无法实现的。例如仅对感兴趣的目标进行分割，在自动分割结果不够好的情况下通过用户介入矫正，特定医疗图像的目标分割等。

此时，交互式分割则发挥着重要的作用，它可以在自动分割不充分的情况下通过用户提供前景和背景的标记实现更加精细和特定位置的目标分割。 本文将对交互式分割近年的发展进行梳理和介绍。

jiuMzu2.png!mobile

交互式分割简介

交互式分割是用户通过提供目标物体前景和背景信息实现交互式的监督分割。交互式分割往往是建立在自动分割的基础上，对已有的监督信息中增加人为（模拟人为）的标记，实现更加精细的分割。图 1 展示了通过指定前景和背景点实现的交互式分割。其中绿色点为前景标记点，红色点为背景标记点。

2a2aYb.png!mobile

▲图1.前景背景点下的交互式分割

交互式分割作为图像分割的一个重要分支也经历了一定的发展。早期的分割和交互式分割是基于高斯混合模型和马尔科夫随机场实现。

通过基于马尔科夫随机场模型的图像分割算法假设待分割图像的像素只与其邻域内的像素相关，与邻域外的像素无关；基于该假设我们能定量计算图像局部的先验结构信息，并根据最大后验概率准则（MAP），有效的利用像素间结构信息分割图像。

依靠能量最小化的分割是定义一个能量函数E，其最小值对应理想的分割。由于前景和背景灰度水平直方图和不透明度是连贯的，并能反映物体实体化的倾向。这样获得一个“吉布斯（Gibbs）”能量的形式。

随着深度学习的发展，以 GrabCut 算法 [1] 为主，利用图像中的纹理（颜色）信息和边界（反差）信息，只要少量的用户交互（提供前景标记框）操作即可得到比较好的分割结果。

我们知道，近年来的神经网络朝着更大更深的方向发展，图像分割的精度和细节愈发的逼近真实分割结果，本文将通过近年典型的几篇交互式分割文章对该方法进行一定梳理和分析。

IbQFVj6.png!mobile

交互式分割近年典型方法

2.1 F-BRS

f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation [2] 是 CVPR 2020 的文章，文章提出了一种新颖的反向传播优化方案（f-BRS），该方案可在网络的中间特征上运行，并且只需要对网络的一小部分进行正向和反向传递。实验结果在准确性和速度方面设定了最高的结果。

f-BRS 的优化过程可以通过以下 demo 进行演示。

fq6RZvn.gif!mobile

可以看到，f-BRS 可以在得到交互式前景和背景的点击下，在进行传播的过程中，不仅可以从输入进行反向传递也可以从相应的特征提取的模块节点下进行反向传播优化网络，这将在推理上可以实现大幅度的速度提升，值得说的是后端优化的节点并没有带来多大分割精度上的损失。

我们看一下模型的实现细节，整个模型结构如图 2 所示。

MNVRrya.png!mobile

▲图2.f-BRS模型结构

模型的输入为原图 image 和已经处理好的前景背景的点。如何处理好这些前景和背景的点呢，这就需要通过一个 Distance Maps 去实现，也就是图上画出来的。

说的通俗一点，这个 Distance 就是怎样确定前景点和对应的 mask 上的区域，源码下采用 num_max 作为前景点的最多个数，默认是 10 个。也就是最多在一个区域标记 10 个前景点和 10 个背景点，通过将这些点进行距离映射处理后得到与图像尺寸相当的 channel 为 2 的距离图。

得到 Distance Maps 后，我们的输入就是对应的 Image 的，有人可能又要质疑了，你是怎么确定前景点和背景点的呢？处理前景点和背景点的任务其实是要人通过交互的输入进行的。怎么去程序化呢？也就是让电脑模拟人的输入进行交互呢？

这其实很简单的，就是通过已有的真实图像的 Mask 去确定，Mask 在目标物体位置区域内是 1，否则全为 0。随机选择 1 的位置作为前景点，0 的位置作为背景点，允许重复的情况下选择 10 个前景点和 10 个背景点（坐标(-1,-1) 的情况下表示放弃标点）。

文章在对数据进行增强的时候，利用了 Python 下的 albumentations 包，这是个专门实现数据增强的模块，其中包括 Compose, ShiftScaleRotate, PadIfNeeded, RandomCrop, RGBShift, RandomBrightnessContrast, RandomRotate90, Flip。

对于后续的网络架构，我们以 ResNet34 为例，对网络进行了详细展开，得到的结果如图 3 所示，对模型中的 BatchSize 进行省略，输入的图像尺寸为。

Y3M3ie6.png!mobile

▲ 图3.f-BRS基于ResNet34实现细节

中间的特征节点 f-BRS-A 、 f-BRS-B 和 f-BRS-C 在图 3 中进行了标注，在进行部分反向传播的时候，也是以这几个节点为基础进行操作。模型采用了较为成熟的 Skip project 和 ASPP 方法，这里还要再强调一下文章提出的 zoom i n 方式，使用的 zoom in 分为 5 个阶段。

阶段一是确定目标下的边界框

nmMbMjf.png!mobile

适度小的扩展找到的边界框

U3a2uuR.png!mobile

通过得到的边界框对图像进行剪裁

b2aaYry.png!mobile

上采样得到的中心区域

QjiQ7ni.png!mobile

再次预测边界

veQRNnJ.png!mobile

Zoom in 方式的采用可以在不添加任何互动点击的情况下得到更好的结果。同时 zoom in 的使用将之前已有的交互式分割方法也可以得到较好的提升，这种方式还是很值得借鉴的。

zIJR7n3.png!mobile

f-BRS 在 GrabCut、Berkeley、SBD 和 DAVIS 数据集上均取得了优异的结果。

VFjyamU.png!mobile

▲ 图4.f-BRS各数据集下实验结果

2.2 Uncertainty-Guided

Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices [3] 是 MICCAI 2020（医学图像领域的顶会）一项工作，这是一篇典型的在自动分割的基础上施加交互式分割的文章，我们先从整体的逻辑实施切入分析。

M3YB7vM.png!mobile

▲ 图5.Uncertainty-Guided交互式分割流程

输入的一张图像通过自动分割得到初始的分割结果和一张 不确定分割 结果，所谓的不确定分割图，就是网络对某些部位是前景还是背景的怀疑程度，文章得到 N 个不确定分割图，这 N 个不确定分割图通过怀疑概率从高到低进行排列，由人为进行交互修正。

当用户连续对 3 张不确定图作出不需要修正的决定后便提前终止交互，输出细化后的分割结果。在模型的网络结构上采用基于分组卷积的 MG-Net。

BFF3UbB.png!mobile

▲ 图6.Uncertainty-Guided模型结构

该模型实现了同时获得多个分段预测和实时不确定性估计，在进行不确定分割结果的交互上通过从高到低的检测方式，避免了对分割良好的结果进行不必要的手动检查。可以这样说，只要自动分割得到的初始化分割结果够好，根本不用后续的不确定分割的参与，直接输出。

正是不确定分割的引入，对网络和细分割上进行了要求上的调整，只有满足一定的人为修正次数或者人为认定不需要进行修正时，才能作为最后的结果输出。这种设计正是交互式分割在处理细化分割上最应该实现的方式。

将 Uncertainty-Guided 应用在不同模型下的定量结果如下。

fmAZBvf.png!mobile

2.3 Refinement Network

Interactive Deep Refinement Network for Medical Image Segmentation [4] 提出了 RefineNet，这是一种用于医学图像分割的交互式深度优化网络。主要目的是完善自动分割网络产生的分割结果。

网络由两部分组成，第一部分是产生初始分割的分割主干；第二部分是优化网络，该网络结合了多尺度初始细分的功能和用户的种子点。网络可以在训练阶段自行生成种子点，并且仅在测试阶段需要用户的种子点。

这种方式不同于 Uncertainty-Guided 的不确定性分割，而是通过多尺度细分去实现交互式分割，模型结构框架如图 7 所示。

EBneimq.png!mobile

▲ 图7.Refinement Network模型结构

左半部分就是典型的 U-Net 网络，文章的创新之处都在右半部分，由 U-Net 在不同尺度下得到各尺度下分割图像。在不同尺度下反馈到交互指导图（种子图像），种子图就是我们说的用户的输入的指示图，也就是上图中的右下角的图像。

这个种子图的获取上，在训练和测试阶段是分开的，在训练阶段种子图的获取的方式是通过 GT（Ground Truth）和初始的分割图进行相减，用图 8 进行解释。

AjUFVj.png!mobile

▲ 图8.前景点和背景点的确定

将两个图像相减会生成相减掩码，由于都是二值图像，指示每个像素为 -1、0 或 +1，得到的结果为 +1 遮罩称为过分分割遮罩（此时判定为过分分割），而 -1 遮罩被视为分割不足遮罩（此时判定为分割不足）。

这反映在种子图上就是用红色标记背景，用蓝色标记前景，回归到结构框架上，种子图通过 resize 指导不同尺度下的图像进行修正。

Nzq2eei.png!mobile

在测试阶段，一般交互式分割方法的主要缺点是用户不知道困难区域，该区域主要是分割不足或分割过度，直到获得初始分割结果为止。

初始分割是从第一个网络生成的；通过初始分段，用户可以观察初始分割结果，对过度分割和分割不足的区域，并将它们用作输入准则。与训练阶段的种子点不同，自动生成的种子点需要真实分割图像，而人工种子点是从用户输入的。

Refinement Network 在分割实验上取得了不错的结果。

VBFfMfU.png!mobile

ZJfe2i7.png!mobile

总结

本文就近年交互式分割下典型的三种模型进行介绍，以单纯交互式分割 F-BRS、通过对自动分割后的不确定性的 Uncertainty-Guided 进行细致分割，以多尺度交互式细分分割的 Refinement Network。

F-BRS 反向传播优化方案将大幅度提升分割速度，只需要对网络的一小部分进行正向和反向传递。Uncertainty-Guided 设计的不确定分割图是交互式分割的发展方向，也是一条很值得学习的方式，这种分组卷积的成功为以后设计的交互式分割提供了参考。

Refinement Network 通过 GT 与预测之间的相减确定是否过度分割或者分割不足的情况可以适用于很多的分割上，这种自动化的方式可以适用在背景和前景的交互指导上，可以对分割结果进行进一步的结果修正。

同时在各个尺度下的指导修正也是一个很值得利用的点，当获得种子图，可以通过 resize（此时的 resize 操作只是在标记点的映射，不影响种子点）进行不同尺度的调整。

大尺度可以 resize 到小尺度，小尺度的种子图完全可以 resize 到大尺度，这个种子图不受尺寸影响，得到的种子图指导大尺度的话，可以得到更加合理的分割图像。小尺度的连续，可以指导大尺度下的不连续，这种方式可以做一定程度的适用和改进。

QJveM3i.png!mobile

参考文献

QJveM3i.png!mobile

[1] Rother C, Kolmogorov V, Blake A. " GrabCut" interactive foreground extraction using iterated graph cuts[J]. ACM transactions on graphics (TOG), 2004, 23(3): 309-314.

[2] Sofiiuk K, Petrov I, Barinova O, et al. f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8623-8632.

[3] Wang G, Aertsen M, Deprest J, et al. Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices[J]. arXiv preprint arXiv:2007.00833, 2020.

[4] Kitrungrotsakul T, Yutaro I, Lin L, et al. Interactive Deep Refinement Network for Medical Image Segmentation[J]. arXiv preprint arXiv:2006.15320, 2020.

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学习心得 或 技术干货 。我们的目的只有一个，让知识真正流动起来。

:memo: 来稿标准：

• 稿件确系个人 原创作品 ，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

:mailbox_with_mail: 投稿邮箱：

• 投稿邮箱： [email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

:mag:

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击 「交流群」 ，小助手将把你带入 PaperWeekly 的交流群里。

R7nmyuB.gif!mobile

nUvi2i.jpg!mobile

2.2 Uncertainty-Guided

2.3 Refinement Network

参考文献

更多阅读

让你的论文被更多人看到

Recommend

微信群总是有人发广告？看我用Python写一个自动化机器人消灭他！

来大厂三个月的一点点小思考

一个可以在控制台玩斗地主的项目

避免开源代码漏洞的4个优秀实践

Github增长案例分析

流量暴增，掌门教育如何基于 Spring Cloud Alibaba 构建微服务体系？

Kubernetes集群监控Prometheus + Grafana监控方案部署及配置-zjdevops的博客

Kasan实现原理以及实现过程-小王同学

如何用JDK 和 Spring优雅的复用代码？-程序员麦冬

K8s——数据持久化-小手冰凉

About Joyk