13

ICCV 2019 | 爱奇艺提出半监督损失函数,利用无标签数据优化人脸识别模型

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ%3D%3D&%3Bmid=2247489663&%3Bidx=4&%3Bsn=3fb9651eb597a87cd9515d388e7d8109
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

点击 我爱计算机视觉 标星,更快获取CVML新技术

论文发表于ICCV 2019

作者 | 爱奇艺技术产品团队

编辑 | 唐里

论文标题: Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition

论文链接:https://arxiv.org/abs/1910.10896v1

爱奇艺拥有海量优质的视频资源,对这些视频资源的结构化分析,尤其是分析视频中出现的人物尤为重要。 目前,人脸识别技术已经应用到爱奇艺多个产品中,如“AI雷达”和“只看TA”。  “AI雷达”分析当前视频画面中出现的人物,“只看TA”分析整个视频中人物出现的所有场景片段。 这两个产品底层都依赖人脸识别技术。

训练一个高性能的人脸识别模型,采用监督学习的方式,需要大量的带标签的人脸数据,通常数据量越大,训练的模型性能越好; 人物越多,识别性能越好。 目前公开库中较大的人脸数据集MS-Celeb-1M包括约10万个人物的1000万张图片; iQIYI-VID包括约1万个人物的64万个视频片段,其中iQIYI-VID-FACE包含约1万个人物600万张人脸图像。

然而,获取某个人的多张图片是比较困难的,需要人工标注。 这在一定程度上阻碍了模型性能的提升。 同时,人脸识别是个open-set问题,有标签数据中的几万个人物只是地球上几十亿人的极小一部分,训练出来的模型泛化能力可能不足。

为了解决上述问题,我们提出用无标签数据优化人脸识别模型。区别于其他半监督学习方法, 我们的方法对无标签数据没有过多限制,只需基本保证这人不出现在有标签数据中。 无标签数据的加入,可以轻易扩大训练人物数量,提升模型泛化能力。

UIR Loss

为了利用无标签数据,我们设计了半监督损失函数,Unknown Identity Rejection(UIR)Loss。 人脸识别是open-set问题,将开放环境中的人物类别分为两类: 有标签类(S)和无标签类(U),S ∩ U= ∅。 训练过程中,对于有标签类,每个样本特征需要逼近分类层对应类别的类心向量; 对于无标签类,它不属于分类层的任何一个类,模型需要“拒绝”它们,即特征与每个分类层类心距离都足够远。 如下图(a),W1 和 W2 表示两个分类层类心向量,圆点表示样本特征。 图(b)中,加入无标签类Wu后,为了Wu距离W1、W2足够远,会使得有标签类别在特征空间上更稀疏,类间距离更大。

reuIzyB.png!web

对于CNN分类模型,全连接分类层的输出经过softmax后得到p1,p2, ... , pn,表示属于各个类别的概率值。 然而无标签类别并不属于任何一类,理想情况下 p1,p2, ... , pn 应该都足够小,可以通过设置阈值将其过滤,提升库外拒绝率。 基于这个想法,问题可以转化成:

3AbmY3E.png!web

上式是多目标最小化问题,可以转化成:

qyqMFvn.png!web

因此得到UIR loss,即:

NJZBbi3.png!web

模型总的loss是有标签类别的loss加上无标签类别的UIR loss,

R3Y3Azu.png!web

模型框图如下,无标签数据和有标签数据一起作为输入,经过骨干网络得到特征,全连接层得到输出概率值,根据概率值分别计算

eYfYfaf.png!web

实验结果

我们采用MS-Celeb-1M清洗过后的MS1MV2数据集作为有标签数据,包括9万人物类别的5百万图片数据。 从网上爬取数据,经过清洗,基本保证与有标签数据较低的重合率,得到约4.9百万张无标签数据。

分别在iQIYI-VID和Trillion-Pairs和IJB-C三个测试集上验证了方法的有效性。 测试了四种骨干网络,实验结果说明,加入无标签数据的UIR loss后,模型性能有所提升。 由于篇幅原因,IJB-C测试结果只贴了ResNet100部分,其他结果可参照论文。

r6RnI3I.png!web

IBrmQre.png!web

进一步分析

UIR Loss使得特征分布更稀疏

从实验结果来看,加入无标签数据的UIR loss后,UIR Loss能使模型学习到更具区分性的特征。 下面从模型分类层类心间距离这一角度来验证特征分布的稀疏性。 我们计算了分类层类心两两间的cos距离,距离越大,类心分布更稀疏。 结果如下表:

EJ7nE32.png!web

随着骨干网络性能提升,baseline和ours的平均距离逐渐增大。 同时,ours的平均距离大于baseline。 这说明了UIR Loss使得特征分布更稀疏。

UIR Loss提升库外拒绝率

我们找了一批新的无标签数据,统计了它们模型最后输出的最大概率值,值越小,代表性能越好。

IrimEv7.png!web

总结与展望

半监督损失函数UIR loss可以有效的借助海量无标签的人脸数据,优化人脸识别模型性能,提升模型泛化能力。 这一研究成果已经应用到了爱奇艺诸多产品中,在提高用户体验、提高视频内容的创作效率等都发挥了极大作用。

爱奇艺APP的“只看Ta”功能,可以实现只看某个演员或者某对CP的功能,不仅满足用户追星或只看某些人物片段的需求,还有助于演员回顾自己演戏的内容,甚至帮助导演挑选自己需要的演员。

其实,帮助导演选择演员,爱奇艺还专门有个APP叫“艺汇”,艺汇里通过AI收集了大量的知名或不知名的演员,借助强大的人脸识别模型,不仅可以在海量视频中定位到只属于该演员的CUT片段,还会根据演员的颜值、脸型、气质类型精确搜索心意角色。

人脸识别的另一大特色应用,就是用户所熟知的AI雷达功能,在爱奇艺APP中点击画面左侧的“扫一扫”按钮,就可以随时看到画面中的演员角色信息,同时在电视端遥控器轻轻按“上键”,就可以在电视画面上展现明星的“这是谁”信息。

在专业的视频内容制作方面,爱奇艺的爱创媒资系统可以支持人物搜索、特定人物的表情搜索、声纹识别等,大大提高了制作人员的效率。

爱奇艺借助其强大的技术实力和前沿的AI研发能力,不断的创新突破,走在视频行业的最前面。 当然,技术创新永无止境,人脸识别虽然有诸多成熟的应用,但在某些较为极端的情况下,如人脸过于模糊、遮挡过多、侧脸角度过大,甚至只出现背影等情况,单纯依靠人脸识别无法解决,这需要借助多模态来解决。 爱奇艺发布的iQIYI-VID数据集是目前业界数据最大的多模态人物识别视频数据集,有效的推进了多模态技术的发展,引起了行内人士的广泛关注。

数据集详情参见http://challenge.ai.iqiyi.com/data-cluster

人脸识别交流群

关注最新最前沿的人脸检测、对齐、识别、3D重建等技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

请务必注明: 人脸

fERFR3M.png!web

喜欢在QQ交流的童鞋,可以加52CV官方 QQ群805388940

(不会时时在线,如果没能及时通过验证还请见谅)

UbiEbaU.png!web

长按关注 我爱计算机视觉


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK