迁移学习(JDDA) 《Joint domain alignment and discriminative feature learning fo...
source link: https://www.cnblogs.com/BlairGrowing/p/17043328.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
论文标题:Joint domain alignment and discriminative feature learning for unsupervised deep domain adaptation
论文作者:Chao Chen , Zhihong Chen , Boyuan Jiang , Xinyu Jin
论文来源:AAAI 2019
论文地址:download
论文代码:download
引用次数:175
1 Introduction
近年来,大多数工作集中于减少不同领域之间的分布差异来学习共享的特征表示,由于所有的域对齐方法只能减少而不能消除域偏移,因此分布在簇边缘或远离相应类中心的目标域样本很容易被从源域学习到的超平面误分类。为缓解这一问题,提出联合域对齐和判别特征学习,有利于 域对齐 和 分类。具体提出了一种基于实例的判别特征学习方法和一种基于中心的判别特征学习方法,两者均保证了域不变特征具有更好的类内紧凑性和类间可分性。大量的实验表明,在共享特征空间中学习鉴别特征可以显著提高性能。
域适应,关注如何从源域的大量标记样本和目标域有限或没有标记的目标样本学习分类,可以分为如下三种方法:
-
- feature-based domain adaptation
- instance-based domain adaptation
- classifier-based domain adaptation
2 Method
总体框架如下:
2.1 Problem statement
In this work, following the settings of unsupervised domain adaptation, we define the labeled source data as Ds={Xs,Ys}={(xsi,ysi)}nsi=1Ds={Xs,Ys}={(xis,yis)}i=1ns and define the unlabeled target data as Dt={Xt}={xti}nti=1Dt={Xt}={xit}i=1nt , where xsxs and xtxt have the same dimension xs(t)∈Rdxs(t)∈Rd . Let ΘΘ denotes the shared parameters to be learned. Hs∈Rb×LHs∈Rb×L and Ht∈Rb×LHt∈Rb×L denote the learned deep features in the bottleneck layer regard to the source stream and target stream, respectively. bb indicates the batch size during the training stage and LL is the number of hidden neurons in the bottleneck layer. Then, the networks can be trained by minimizing the following loss function.
L(Θ∣Xs,Ys,Xt)=Ls+λ1Lc+λ2Ld(1)Ls=1ns∑nsi=1c(Θ∣xsi,ysi)(2)Lc=CORAL(Hs,Ht)(3)Ld=Jd(Θ∣Xs,Ys)(4)L(Θ∣Xs,Ys,Xt)=Ls+λ1Lc+λ2Ld(1)Ls=1ns∑i=1nsc(Θ∣xis,yis)(2)Lc=CORAL(Hs,Ht)(3)Ld=Jd(Θ∣Xs,Ys)(4)
-
- LsLs 代表源域分类损失;
- Lc=CORAL(Hs,Ht)Lc=CORAL(Hs,Ht) 表示通过相关性对齐度量的域差异损失;
- Jd(Θ∣Xs,Ys)Jd(Θ∣Xs,Ys) 代表鉴别损失,保证了域不变特征具有更好的类内紧致性和类间可分性;
2.2 Correlation Alignment (CORALCORAL)
为学习域不变特征,通过对齐源特征和目标特征的协方差来减少域差异。域差异损失如下:
Lc=CORAL(Hs,Ht)=14L2∥Cov(Hs)−Cov(Ht)∥2F(5)Lc=CORAL(Hs,Ht)=14L2‖Cov(Hs)−Cov(Ht)‖F2(5)
-
- ∥⋅∥2F‖⋅‖F2 为矩阵 FrobeniusFrobenius 范数;
- Cov(Hs)Cov(Hs) 和 Cov(Ht)Cov(Ht) 表示 bottleneck layerbottleneck layer 中源特征和目标特征的协方差矩阵;
- Cov(Hs)=H⊤sJbHsCov(Hs)=Hs⊤JbHs
- Cov(Ht)=H⊤tJbHtCov(Ht)=Ht⊤JbHt
- Jb=Ib−1b1n1TsnJb=Ib−1b1n1nTs 是 centralized matrixcentralized matrix;
- 1b∈Rb1b∈Rb 全 11 列向量;
- bb 是批大小;
注意,训练过程是通过小批量 SGDSGD 实现的,因此,在每次迭代中,只有一批训练样本被对齐。
2.3 Discriminative Feature Learning
为学习更具判别性的特征,提出两种判别特征学习方法:基于实例的判别特征学习 和 基于中心的判别特征学习。
注意,整个训练阶段都是基于小批量 SGDSGD 的。因此,下面给出的鉴别损失是基于一批样本的。
2.3.1 Instance-Based Discriminative Loss
基于实例的判别损失 LIdLdI 可以表示为:
-
- Hs=[hs1;hs2;⋯;hsb]Hs=[h1s;h2s;⋯;hbs];
- Cij=1Cij=1 表示 hsihis 和 hsjhjs 来自同一个类,Cij=0Cij=0 表示 hsihis 和 hsjhjs 来自不同的类;
- m2m2 大于 m1m1;
从 Eq.6Eq.6、Eq.7Eq.7 中可以看出,判别损失会使类内样本之间的距离不超过 m1m1,而类间样本之间的距离至少 m2m2。
LId=α∥∥max(0,DH−m1)2∘L∥∥sum +∥∥max(0,m2−DH)2∘(1−L)∥∥sum(8)LdI=α‖max(0,DH−m1)2∘L‖sum +‖max(0,m2−DH)2∘(1−L)‖sum(8)
2.3.2 Center-Based Discriminative Loss
LCd=β∑i=1nsmax(0,∥∥hsi−cyi∥∥22−m1)+∑i,j=1,i≠jcmax(0,m2−∥ci−cj∥22)(9)LdC=β∑i=1nsmax(0,‖his−cyi‖22−m1)+∑i,j=1,i≠jcmax(0,m2−‖ci−cj‖22)(9)
-
- ββ 为权衡参数;
- m1m1 和 m2m2 为两个约束边距 (m1<m2)(m1<m2);
- cyi∈Rdcyi∈Rd 表示第 yiyi 类的质心,yi∈{1,2,⋯,c}yi∈{1,2,⋯,c},cc 表示类数;
理想情况下,类中心 cici 应通过平均所有样本的深层特征来计算。但由于本文是基于小批量进行更新的,因此很难用整个训练集对深度特征进行平均。在此,本文做了一个必要的修改,对于 Eq.9Eq.9 中判别损失的第二项,用于度量类间可分性的 cici 和 cjcj 是通过对当前一批深度特征进行平均来近似计算的,称之为 “批类中心” 。相反,用于测量类内紧致性的 cyicyi 应该更准确,也更接近 “全局类中心”。因此,在每次迭代中更新 cyicyi 为
Δcj=∑i=1bδ(yi=j)(cj−hsi)1+∑i=1bδ(yi=j)(10)ct+1j=ctj−γ⋅Δctj(11)Δcj=∑i=1bδ(yi=j)(cj−his)1+∑i=1bδ(yi=j)(10)cjt+1=cjt−γ⋅Δcjt(11)
“全局类中心” 在第一次迭代中被初始化为“批类中心”,在每次迭代中通过 Eq.10Eq.10、Eq.11Eq.11 进行更新,其中 γγ 是更新“全局类中心”的学习速率。为简洁起见,Eq.9Eq.9 可以简化为
LCd=β∥max(0,Hc−m1)∥sum +∥max(0,m2−Dc)∘M∥sum LdC=β‖max(0,Hc−m1)‖sum +‖max(0,m2−Dc)∘M‖sum
-
- Hc=[hc1;hc2;…;hcb]Hc=[h1c;h2c;…;hbc],hci=∥∥hsi−cyi∥∥22hic=‖his−cyi‖22 表示第 ii 个样本深层特征与其对应的中心 cyicyi 之间的距离;
- Dc∈Rc×cDc∈Rc×c 表示“批类中心”的成对距离,即 Dcij=∥ci−cj∥22Dijc=‖ci−cj‖22;
不同于 Center Loss Center Loss ,它只考虑类内的紧致性,本文不仅惩罚了深度特征与其相应的类中心之间的距离,而且在不同类别的中心之间加强了较大的边际。
2.4 Training
所提出的 Instance-Based joint discriminative domain adaptation (JDDA-I)Instance-Based joint discriminative domain adaptation (JDDA-I)和 Center-Based joint discriminative domain adaptation (JDDA-C)Center-Based joint discriminative domain adaptation (JDDA-C) 都可以通过小批量SGD轻松实现。对于 JDDA-IJDDA-I,总损失为 L=Ls+λ1Lc+λI2LIdL=Ls+λ1Lc+λ2ILdI,LcLc 代表源域的分类损失。因此,参数 ΘΘ 可以通过标准的反向传播直接更新
Θt+1=Θt−η∂(Ls+λ1Lc+λI2LId)∂xi(13)Θt+1=Θt−η∂(Ls+λ1Lc+λ2ILdI)∂xi(13)
3 Experiments
__EOF__
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK