3

理解编辑类视觉模型会用到哪些技术?

 1 year ago
source link: https://zhuanlan.zhihu.com/p/618719463
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

导读:本文主要分享 ModelScope 社区已经上线的理解、编辑类模型,主要是对图像的理解和编辑。

主要内容包括四大部分:

1. ModelScope社区概览

2. 理解类视觉模型

3. 编辑类视觉模型

4. 更多模型


分享嘉宾|刘金林博士 阿里巴巴 算法专家

编辑整理|张少华 信雅达科技

出品社区|DataFun


01/概览

1. 魔搭社区

ModelScope 魔搭社区开源了众多模型,包括视觉、NLP、语音和多模态等各方面模型。另外平台还提供了一些数据集和空间,供大家测试使用。

v2-452f8e7d4d1e8e90a7e22c836873a722_720w.webp

2. CV 介绍

我们将 CV 模型进行归类,分为编辑类和理解类模型。理解类模型,比如常见的检测、分类,需要对图像内容进行理解,因此归为理解类模型,还包括识别、语义分割、抠图、关键点检测等。编辑类模型,主要对图像进行一些编辑,如常见的风格迁移、美颜、调色、上色、超分、增强等。

ModelScope 的模型具有先进、SOTA 和实用三大特点。模型有很多是从实际项目中沉淀出来的,不仅在公开数据集上达到 SOTA 效果,在实际图片应用上也有着比较好的效果。ModelScope 不仅有这些模型,也有一些预训练框架,大家可以基于这些 pretrain 模型,在自己的数据集上进行 finetune。也可以利用我们的数据集进行一些实验。

02/理解类模型

下面介绍理解类模型,这里主要介绍抠图模型。

语义分割、检测是图像理解里比较常用的模型。抠图可以把它理解为语义分割的一个精细版。语义分割是识别图像中不同区域的语义信息,有时它的边缘信息处理并不够好,如边缘精细达不到发丝级别。与语义分割相比,抠图对图像处理的精细度更高。人像分割是抠图的一个很重要分支,比如人像换背景,将人像抠出来重置到其他背景中,这其中我们不难发现,抠像对数据的要求是非常高的。如果进行有监督训练,需要大量标注数据,而且这种精细标注非常困难。

为了解决这个问题,我们采用了相对间接的方式实现,将任务划分为两个相对简单的子任务。第一个子任务做粗分割,这个任务是比较简单的,比如语义分割,另外这个过程标注成本比较低,而且可以从公开数据集上去获取大量数据。第二步通过一个粗 mask 之后,再做 refine,得到一个更精细的包括发丝边缘的数据。这类数据由于它是一个相对简单的任务,得到 mask 之后,可以通过合成的数据,如 PNG 数据有透明通道,可以把它贴到不同的背景上去,得到大量的合成数据。refine 任务是一个相对困难的任务,之后每一部分对数据要求都不是很高,这样就不需要标注大量数据。只需要通过公开的数据集和合成的数据集就可以达到训练目的。

总而言之,第一部分任务是粗分割网络,可以认为是一个语义分割网络。第二部分做 mask 质量统一处理,因为第一部分数据同时用了合成数据和公开数据。最后我们通过一个 refine 网络,基于原图和输出粗分割 mask,估计精细分割的 mask。

当然,这类方法不仅可以用于人像抠图,而且可以用在其他物品或者动物上,比如将它用在动物、植物、商品上。最终拓展到不同类别上,都可以取得较好的效果。

下面介绍人像抠图模型如何在 ModelScope 上使用。

首先进入社区找到抠图模块,启动 notebook。同时平台也提供了在线体验功能。

进入代码编辑,创建环境并安装相关依赖库,最后通过代码将模型加载调用以及结果保存执行就可以使用了。

03/编辑类模型

接下来介绍四个编辑类模型,风格迁移、人像美型、人像美肤和动漫化。

1. 风格迁移

风格迁移主要的任务将给定内容图形和风格图形作为输入,然后风格迁移模型自动地将内容图像的风格、纹理特征变换为风格图像的类型,同时保证图像的内容特征不变。

这里存在几个问题:出现扭曲,风格化不充分或者缺乏细节。比如人像风格化通常是比较倾向于保证脸部语义信息,风格化之后经常会出现人脸扭曲。

我们的工作在保留语义信息,尤其是脸部信息方面是做的是比较好的。我们的解决方法主要是加入了 attention 机制,保证人脸信息被注意到,这样脸部的细节会保持得更好。另外加入多笔触风格,保证它充分的风格化。

结合人像抠图和风格迁移,就可以实现一些比较有趣的玩法,比如把人像抠出来后贴到风格化背景上,就可以实现人在画中的效果。这就是理解类模型与编辑类模型相结合的一个应用。

大家也可以直接去 ModelScope 体验风格迁移的效果。

2. 人像美型

第二个编辑模型是人像美型。已有的工作存在两个问题,第一个问题是对于高分辨率图像处理存在困难,比如婚纱照的精修,需要对细节进行修改;第二是实际图像的处理效果。

针对这两个问题,我们使用了 pose 先验。我们观察到很多图像与它的 pose 相关。第二是通过光流处理,不直接去估计每个像素信息,用光流的方法估计这部分的像素及偏移量,这样就避免了直接对高峰值像素进行处理。光流之后 Warp,可以很快速地处理高分变率图像。

下图中可以看到我们的方法和之前其它方法的对比,在处理高分辨率图像时,由于我们的方法不需要对原图做 resize,因此我们的高清的细节保持的非常好,美型的细节也和 ground truth 接近。

这里还有一个问题就是对应一些图片,直接进行人像美型可能使背景物品扭曲。为了解决这一问题,可以首先用理解类模型,将人像抠出来,把前景和背景分离,前景用光流方法去做美型,再放到背景上。这样就保证了处理前景美型之后,不会影响整体抠图的美观性,也不会影响背景结果。

同样,这一模型也已在 ModelScope 上线。

3. 人像美肤

接下来介绍人像美肤模型。需要解决的问题是,对过于平滑,缺少细节的问题进行处理,如人像美颜,我们不希望所有部位都变得平滑,对胡须等部位则需要保持其细节。第二个问题是对高清图处理慢。

我们提出了两个解决方法,首先是使用上下文感知层,处理高清图片可以更容易去感知它的全局语义信息。第二个方法是自适应混合金字塔,将不同层级的语义信息特征提取出来,去完成美肤。主要思路就是分层级提取特征。高层计算量相对较小,计算量较大的部分都放在底层,这样保证在处理高清图时也可以有较快的速度。

从下图中可以看到,一些瑕疵被很好地修复了,同时发丝、牙齿等细节则得到了很好的保留。

这一模型也可以同样方法去体验。另外在手机端也可以体验。

4. 动漫化

最后一个模型是动漫化模型。具体场景如将数字图像转成动漫风格。由于动漫风格多种多样,如何快速地把图片转成不同的风格,这其中有三个问题需要解决,第一个问题是如何保证与原图的相似度;第二是如何处理遮挡,比如人戴口罩,或者手等对人脸的遮挡等;第三个问题是如何处理全身图像。

我们采用的方案是 domain 对齐的方法。简单来说,把原图 domain 通过两个步骤进行对齐,第一个步骤是 content 对齐,通过这个步骤,可以将源空间和 domain 空间进行对齐;第二步骤是 geometry 对齐,保证对于不同旋转角度、姿态,都能有一个比较好的动漫画转化效果。

这个模型可以很容易拓展到不同风格,并且可以处理全身的效果。

同样,模型已在 ModelScope 上线。欢迎大家去体验。

04/更多模型

最后预告一下即将上线的一些模型。

第一个模型是换天空,简单来说,首先对天空区域做清晰的分割、抠图,再与它的背景做一个融合,最终融合效果非常逼真。

v2-1ce137e28025f7e058ccecd5f699b5ce_720w.webp

第二是视频抠图,可以应用于对视频处理。

v2-f4a340093c58fba5203e952b4f582da3_720w.webp

以上就是今天分享的内容。谢谢大家。


▌2023数据智能创新与实践大会

第四届DataFunCon数据智能创新与实践大会将于⏰ 7月21-22日在北京召开,会议主题为新基建·新征程,聚焦数据智能四大体系:数据架构数据效能算法创新智能应用。在这里,你将领略到数据智能技术实践最前沿的景观

欢迎大家 点击下方链接获取大会门票~

v2-68dd4b932a8d05d4f0148db4534a57d2_720w.webp




About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK