理解编辑类视觉模型会用到哪些技术？

导读：本文主要分享 ModelScope 社区已经上线的理解、编辑类模型，主要是对图像的理解和编辑。

主要内容包括四大部分：

1. ModelScope社区概览

2. 理解类视觉模型

3. 编辑类视觉模型

4. 更多模型

分享嘉宾｜刘金林博士阿里巴巴算法专家

编辑整理｜张少华信雅达科技

出品社区｜DataFun

01/概览

1. 魔搭社区

ModelScope 魔搭社区开源了众多模型，包括视觉、NLP、语音和多模态等各方面模型。另外平台还提供了一些数据集和空间，供大家测试使用。

2. CV 介绍

我们将 CV 模型进行归类，分为编辑类和理解类模型。理解类模型，比如常见的检测、分类，需要对图像内容进行理解，因此归为理解类模型，还包括识别、语义分割、抠图、关键点检测等。编辑类模型，主要对图像进行一些编辑，如常见的风格迁移、美颜、调色、上色、超分、增强等。

ModelScope 的模型具有先进、SOTA 和实用三大特点。模型有很多是从实际项目中沉淀出来的，不仅在公开数据集上达到 SOTA 效果，在实际图片应用上也有着比较好的效果。ModelScope 不仅有这些模型，也有一些预训练框架，大家可以基于这些 pretrain 模型，在自己的数据集上进行 finetune。也可以利用我们的数据集进行一些实验。

02/理解类模型

下面介绍理解类模型，这里主要介绍抠图模型。

语义分割、检测是图像理解里比较常用的模型。抠图可以把它理解为语义分割的一个精细版。语义分割是识别图像中不同区域的语义信息，有时它的边缘信息处理并不够好，如边缘精细达不到发丝级别。与语义分割相比，抠图对图像处理的精细度更高。人像分割是抠图的一个很重要分支，比如人像换背景，将人像抠出来重置到其他背景中，这其中我们不难发现，抠像对数据的要求是非常高的。如果进行有监督训练，需要大量标注数据，而且这种精细标注非常困难。

为了解决这个问题，我们采用了相对间接的方式实现，将任务划分为两个相对简单的子任务。第一个子任务做粗分割，这个任务是比较简单的，比如语义分割，另外这个过程标注成本比较低，而且可以从公开数据集上去获取大量数据。第二步通过一个粗 mask 之后，再做 refine，得到一个更精细的包括发丝边缘的数据。这类数据由于它是一个相对简单的任务，得到 mask 之后，可以通过合成的数据，如 PNG 数据有透明通道，可以把它贴到不同的背景上去，得到大量的合成数据。refine 任务是一个相对困难的任务，之后每一部分对数据要求都不是很高，这样就不需要标注大量数据。只需要通过公开的数据集和合成的数据集就可以达到训练目的。

总而言之，第一部分任务是粗分割网络，可以认为是一个语义分割网络。第二部分做 mask 质量统一处理，因为第一部分数据同时用了合成数据和公开数据。最后我们通过一个 refine 网络，基于原图和输出粗分割 mask，估计精细分割的 mask。

当然，这类方法不仅可以用于人像抠图，而且可以用在其他物品或者动物上，比如将它用在动物、植物、商品上。最终拓展到不同类别上，都可以取得较好的效果。

下面介绍人像抠图模型如何在 ModelScope 上使用。

首先进入社区找到抠图模块，启动 notebook。同时平台也提供了在线体验功能。

进入代码编辑，创建环境并安装相关依赖库，最后通过代码将模型加载调用以及结果保存执行就可以使用了。

03/编辑类模型

接下来介绍四个编辑类模型，风格迁移、人像美型、人像美肤和动漫化。

1. 风格迁移

风格迁移主要的任务将给定内容图形和风格图形作为输入，然后风格迁移模型自动地将内容图像的风格、纹理特征变换为风格图像的类型，同时保证图像的内容特征不变。

这里存在几个问题：出现扭曲，风格化不充分或者缺乏细节。比如人像风格化通常是比较倾向于保证脸部语义信息，风格化之后经常会出现人脸扭曲。

我们的工作在保留语义信息，尤其是脸部信息方面是做的是比较好的。我们的解决方法主要是加入了 attention 机制，保证人脸信息被注意到，这样脸部的细节会保持得更好。另外加入多笔触风格，保证它充分的风格化。

结合人像抠图和风格迁移，就可以实现一些比较有趣的玩法，比如把人像抠出来后贴到风格化背景上，就可以实现人在画中的效果。这就是理解类模型与编辑类模型相结合的一个应用。

大家也可以直接去 ModelScope 体验风格迁移的效果。

2. 人像美型

第二个编辑模型是人像美型。已有的工作存在两个问题，第一个问题是对于高分辨率图像处理存在困难，比如婚纱照的精修，需要对细节进行修改；第二是实际图像的处理效果。

针对这两个问题，我们使用了 pose 先验。我们观察到很多图像与它的 pose 相关。第二是通过光流处理，不直接去估计每个像素信息，用光流的方法估计这部分的像素及偏移量，这样就避免了直接对高峰值像素进行处理。光流之后 Warp，可以很快速地处理高分变率图像。

下图中可以看到我们的方法和之前其它方法的对比，在处理高分辨率图像时，由于我们的方法不需要对原图做 resize，因此我们的高清的细节保持的非常好，美型的细节也和 ground truth 接近。

这里还有一个问题就是对应一些图片，直接进行人像美型可能使背景物品扭曲。为了解决这一问题，可以首先用理解类模型，将人像抠出来，把前景和背景分离，前景用光流方法去做美型，再放到背景上。这样就保证了处理前景美型之后，不会影响整体抠图的美观性，也不会影响背景结果。

同样，这一模型也已在 ModelScope 上线。

3. 人像美肤

接下来介绍人像美肤模型。需要解决的问题是，对过于平滑，缺少细节的问题进行处理，如人像美颜，我们不希望所有部位都变得平滑，对胡须等部位则需要保持其细节。第二个问题是对高清图处理慢。

我们提出了两个解决方法，首先是使用上下文感知层，处理高清图片可以更容易去感知它的全局语义信息。第二个方法是自适应混合金字塔，将不同层级的语义信息特征提取出来，去完成美肤。主要思路就是分层级提取特征。高层计算量相对较小，计算量较大的部分都放在底层，这样保证在处理高清图时也可以有较快的速度。

从下图中可以看到，一些瑕疵被很好地修复了，同时发丝、牙齿等细节则得到了很好的保留。

这一模型也可以同样方法去体验。另外在手机端也可以体验。

4. 动漫化

最后一个模型是动漫化模型。具体场景如将数字图像转成动漫风格。由于动漫风格多种多样，如何快速地把图片转成不同的风格，这其中有三个问题需要解决，第一个问题是如何保证与原图的相似度；第二是如何处理遮挡，比如人戴口罩，或者手等对人脸的遮挡等；第三个问题是如何处理全身图像。

我们采用的方案是 domain 对齐的方法。简单来说，把原图 domain 通过两个步骤进行对齐，第一个步骤是 content 对齐，通过这个步骤，可以将源空间和 domain 空间进行对齐；第二步骤是 geometry 对齐，保证对于不同旋转角度、姿态，都能有一个比较好的动漫画转化效果。

这个模型可以很容易拓展到不同风格，并且可以处理全身的效果。

同样，模型已在 ModelScope 上线。欢迎大家去体验。

04/更多模型

最后预告一下即将上线的一些模型。

第一个模型是换天空，简单来说，首先对天空区域做清晰的分割、抠图，再与它的背景做一个融合，最终融合效果非常逼真。

第二是视频抠图，可以应用于对视频处理。

以上就是今天分享的内容。谢谢大家。

▌2023数据智能创新与实践大会

第四届DataFunCon数据智能创新与实践大会将于⏰ 7月21-22日在北京召开，会议主题为新基建·新征程，聚焦数据智能四大体系：数据架构、数据效能、算法创新、智能应用。在这里，你将领略到数据智能技术实践最前沿的景观。

欢迎大家点击下方链接获取大会门票～

DataFunCon2023（北京站）：数据智能创新与实践大会www.bagevent.com/event/8416932?bag_track=zhihu

01/概览

1. 魔搭社区

2. CV 介绍

02/理解类模型

03/编辑类模型

1. 风格迁移

2. 人像美型

3. 人像美肤

4. 动漫化

04/更多模型

▌2023数据智能创新与实践大会

Recommend

[webapps] Centos Web Panel 7 v0.9.8.1147 - Unauthenticated Remote Code Execution...

传音Tecno Camon 20 Premier通过认证：不规则镜头亮眼

【Jenkins系列】-Pipeline语法全集 - DevOps在路上

Wealthiest People in Mexico (March 31, 2023)

罗永浩竞拍的卫星，你我能买吗？

从0开始学杂项第三期：隐写分析(2) PNG图片隐写 - 天翔RT

NaaS Technology推出了自动驾驶电动汽车充电机器人

What the AI-generated image of Pope Francis means for the imagination - Vox

如何禁用 Microsoft Edge 搜索和站点建议

评论区直抽：克苏鲁风捕鱼冒险游戏《渔帆暗涌》

About Joyk