论文标题：Joint domain alignment and discriminative feature learning for unsupervised deep domain adaptation
论文作者：Chao Chen , Zhihong Chen , Boyuan Jiang , Xinyu Jin
论文来源：AAAI 2019
论文地址：download
论文代码：download
引用次数：175

1 Introduction

　　近年来，大多数工作集中于减少不同领域之间的分布差异来学习共享的特征表示，由于所有的域对齐方法只能减少而不能消除域偏移，因此分布在簇边缘或远离相应类中心的目标域样本很容易被从源域学习到的超平面误分类。为缓解这一问题，提出联合域对齐和判别特征学习，有利于域对齐和分类。具体提出了一种基于实例的判别特征学习方法和一种基于中心的判别特征学习方法，两者均保证了域不变特征具有更好的类内紧凑性和类间可分性。大量的实验表明，在共享特征空间中学习鉴别特征可以显著提高性能。
　　域适应，关注如何从源域的大量标记样本和目标域有限或没有标记的目标样本学习分类，可以分为如下三种方法：

- feature-based domain adaptation
- instance-based domain adaptation
- classifier-based domain adaptation

2 Method

　　总体框架如下：

2.1 Problem statement

　　In this work, following the settings of unsupervised domain adaptation, we define the labeled source data as Ds={Xs,Ys}={(xsi,ysi)}nsi=1Ds={Xs,Ys}={(xis,yis)}i=1ns and define the unlabeled target data as Dt={Xt}={xti}nti=1Dt={Xt}={xit}i=1nt , where xsxs and xtxt have the same dimension xs(t)∈Rdxs(t)∈Rd . Let ΘΘ denotes the shared parameters to be learned. Hs∈Rb×LHs∈Rb×L and Ht∈Rb×LHt∈Rb×L denote the learned deep features in the bottleneck layer regard to the source stream and target stream, respectively. bb indicates the batch size during the training stage and LL is the number of hidden neurons in the bottleneck layer. Then, the networks can be trained by minimizing the following loss function.

　　　　L(Θ∣Xs,Ys,Xt)=Ls+λ1Lc+λ2Ld(1)Ls=1ns∑nsi=1c(Θ∣xsi,ysi)(2)Lc=CORAL(Hs,Ht)(3)Ld=Jd(Θ∣Xs,Ys)(4)L(Θ∣Xs,Ys,Xt)=Ls+λ1Lc+λ2Ld(1)Ls=1ns∑i=1nsc(Θ∣xis,yis)(2)Lc=CORAL(Hs,Ht)(3)Ld=Jd(Θ∣Xs,Ys)(4)

- LsLs 代表源域分类损失；
- Lc=CORAL(Hs,Ht)Lc=CORAL⁡(Hs,Ht) 表示通过相关性对齐度量的域差异损失；
- Jd(Θ∣Xs,Ys)Jd(Θ∣Xs,Ys) 代表鉴别损失，保证了域不变特征具有更好的类内紧致性和类间可分性；

2.2 Correlation Alignment (CORALCORAL)

　　为学习域不变特征，通过对齐源特征和目标特征的协方差来减少域差异。域差异损失如下：

　　　　Lc=CORAL(Hs,Ht)=14L2∥Cov(Hs)−Cov(Ht)∥2F(5)Lc=CORAL⁡(Hs,Ht)=14L2‖Cov⁡(Hs)−Cov⁡(Ht)‖F2(5)

- ∥⋅∥2F‖⋅‖F2 为矩阵 FrobeniusFrobenius 范数；　　
- Cov(Hs)Cov⁡(Hs) 和 Cov(Ht)Cov⁡(Ht) 表示 bottleneck layerbottleneck layer 中源特征和目标特征的协方差矩阵；　　
  - Cov(Hs)=H⊤sJbHsCov⁡(Hs)=Hs⊤JbHs
  - Cov(Ht)=H⊤tJbHtCov⁡(Ht)=Ht⊤JbHt
    - Jb=Ib−1b1n1TsnJb=Ib−1b1n1nTs 是 centralized matrixcentralized matrix；
    - 1b∈Rb1b∈Rb 全 11 列向量；
    - bb 是批大小；

　　注意，训练过程是通过小批量 SGDSGD 实现的，因此，在每次迭代中，只有一批训练样本被对齐。

2.3 Discriminative Feature Learning

　　为学习更具判别性的特征，提出两种判别特征学习方法：基于实例的判别特征学习和基于中心的判别特征学习。

　　注意，整个训练阶段都是基于小批量 SGDSGD 的。因此，下面给出的鉴别损失是基于一批样本的。

2.3.1 Instance-Based Discriminative Loss

　　基于实例的判别特征学习的动机是：同一类的样本在特征空间中应该尽可能地接近，不同类的样本之间应有较大距离。

　　基于实例的判别损失 LIdLdI 可以表示为：

　　　　JId(hsi,hsj)=⎧⎩⎨⎪⎪⎪⎪max(0,∥∥hsi−hsj∥∥2−m1)2max(0,m2−∥∥hsi−hsj∥∥2)2Cij=1Cij=0(6)JdI(his,hjs)={max(0,‖his−hjs‖2−m1)2Cij=1max(0,m2−‖his−hjs‖2)2Cij=0(6)

　　　　LId=∑i,j=1nsJId(hsi,hsj)(7)LdI=∑i,j=1nsJdI(his,hjs)(7)

- Hs=[hs1;hs2;⋯;hsb]Hs=[h1s;h2s;⋯;hbs]；
- Cij=1Cij=1 表示 hsihis 和 hsjhjs 来自同一个类，Cij=0Cij=0 表示 hsihis 和 hsjhjs 来自不同的类；
- m2m2 大于 m1m1；

　　从 Eq.6Eq.6、Eq.7Eq.7 中可以看出，判别损失会使类内样本之间的距离不超过 m1m1，而类间样本之间的距离至少 m2m2。

　　为简洁起见，将深度特征 HsHs 的成对距离表示为 DH∈Rb×bDH∈Rb×b，其中 DHij=∥∥hsi−hsj∥∥2DijH=‖his−hjs‖2。设 L∈Rb×bL∈Rb×b 表示指示器矩阵，如果第 ii 个样本和第 jj 个样本来自同一个类，则表示 Lij=1Lij=1，如果它们来自不同的类，则表示 Lij=0Lij=0。然后，基于实例的判别损失可简化为：

　　　　LId=α∥∥max(0,DH−m1)2∘L∥∥sum +∥∥max(0,m2−DH)2∘(1−L)∥∥sum(8)LdI=α‖max(0,DH−m1)2∘L‖sum +‖max(0,m2−DH)2∘(1−L)‖sum(8)

2.3.2 Center-Based Discriminative Loss

　　基于实例的鉴别损失需要计算样本之间的成对距离，计算成本较高。受 Center Loss 惩罚每个样本到相应类中心的距离的启发，本文提出基于中心的判别特征学习：

　　　　LCd=β∑i=1nsmax(0,∥∥hsi−cyi∥∥22−m1)+∑i,j=1,i≠jcmax(0,m2−∥ci−cj∥22)(9)LdC=β∑i=1nsmax(0,‖his−cyi‖22−m1)+∑i,j=1,i≠jcmax(0,m2−‖ci−cj‖22)(9)

- ββ 为权衡参数；
- m1m1 和 m2m2 为两个约束边距 (m1<m2)(m1<m2)；
- cyi∈Rdcyi∈Rd 表示第 yiyi 类的质心，yi∈{1,2,⋯,c}yi∈{1,2,⋯,c}，cc 表示类数；

　　理想情况下，类中心 cici 应通过平均所有样本的深层特征来计算。但由于本文是基于小批量进行更新的，因此很难用整个训练集对深度特征进行平均。在此，本文做了一个必要的修改，对于 Eq.9Eq.9 中判别损失的第二项，用于度量类间可分性的 cici 和 cjcj 是通过对当前一批深度特征进行平均来近似计算的，称之为 “批类中心” 。相反，用于测量类内紧致性的 cyicyi 应该更准确，也更接近 “全局类中心”。因此，在每次迭代中更新 cyicyi 为

　　　　Δcj=∑i=1bδ(yi=j)(cj−hsi)1+∑i=1bδ(yi=j)(10)ct+1j=ctj−γ⋅Δctj(11)Δcj=∑i=1bδ(yi=j)(cj−his)1+∑i=1bδ(yi=j)(10)cjt+1=cjt−γ⋅Δcjt(11)

　　“全局类中心” 在第一次迭代中被初始化为“批类中心”，在每次迭代中通过 Eq.10Eq.10、Eq.11Eq.11 进行更新，其中 γγ 是更新“全局类中心”的学习速率。为简洁起见，Eq.9Eq.9 可以简化为

　　　　LCd=β∥max(0,Hc−m1)∥sum +∥max(0,m2−Dc)∘M∥sum LdC=β‖max(0,Hc−m1)‖sum +‖max(0,m2−Dc)∘M‖sum

- Hc=[hc1;hc2;…;hcb]Hc=[h1c;h2c;…;hbc]，hci=∥∥hsi−cyi∥∥22hic=‖his−cyi‖22 表示第 ii 个样本深层特征与其对应的中心 cyicyi 之间的距离；
- Dc∈Rc×cDc∈Rc×c 表示“批类中心”的成对距离，即 Dcij=∥ci−cj∥22Dijc=‖ci−cj‖22；

　　不同于 Center Loss Center Loss ，它只考虑类内的紧致性，本文不仅惩罚了深度特征与其相应的类中心之间的距离，而且在不同类别的中心之间加强了较大的边际。

2.4 Training

　　所提出的 Instance-Based joint discriminative domain adaptation (JDDA-I)Instance-Based joint discriminative domain adaptation (JDDA-I)和 Center-Based joint discriminative domain adaptation (JDDA-C)Center-Based joint discriminative domain adaptation (JDDA-C) 都可以通过小批量SGD轻松实现。对于 JDDA-IJDDA-I，总损失为 L=Ls+λ1Lc+λI2LIdL=Ls+λ1Lc+λ2ILdI，LcLc 代表源域的分类损失。因此，参数 ΘΘ 可以通过标准的反向传播直接更新

　　　　Θt+1=Θt−η∂(Ls+λ1Lc+λI2LId)∂xi(13)Θt+1=Θt−η∂(Ls+λ1Lc+λ2ILdI)∂xi(13)

　　由于 “global class center” 不能通过一批样本来计算，因此 JDDA-CJDDA-C 必须在每次迭代中同时更新 ΘΘ 和“全局类中心”：

　　　　Θt+1=Θt−η∂(Ls+λ1Lc+λC2LCd)∂xiΘt+1=Θt−η∂(Ls+λ1Lc+λ2CLdC)∂xi

　　　　ct+1j=ctj−γ⋅Δctjj=1,2,⋯,c(14)cjt+1=cjt−γ⋅Δcjtj=1,2,⋯,c(14)

3 Experiments

__EOF__

迁移学习（JDDA）《Joint domain alignment and discriminative feature learning fo...

1 Introduction

2 Method

2.1 Problem statement

2.2 Correlation Alignment (CORALCORAL)

2.3 Discriminative Feature Learning

2.3.1 Instance-Based Discriminative Loss

2.3.2 Center-Based Discriminative Loss

2.4 Training

3 Experiments

Recommend

PICO年度VR应用榜单公布：《红色物质2》成最受期待VR游戏

2022 Annual Summary

音频碎碎念（五）—— 听音环境

混沌演练实践（一） - 京东云开发者

品牌规划的七个路径

微信公开课 | 孟令刚：新的一年微信如何提供开发助力和商业提效

推特考虑出售用户名增加收入；微信回应切断抖音外链；App Store 去年收入 750-850 亿...

德国汽车及工业产品供应商舍弗勒与制氢企业 Lhyfe 建立合作关系

家族传承，不只有二代联姻选项

Encrypted Chat App Threema Full of Hackable Bugs: Study

About Joyk

迁移学习（JDDA） 《Joint domain alignment and discriminative feature learning fo...

1 Introduction

2 Method

2.1 Problem statement

2.2 Correlation Alignment (CORALCORAL)

2.3 Discriminative Feature Learning

2.3.1 Instance-Based Discriminative Loss

2.3.2 Center-Based Discriminative Loss

2.4 Training

3 Experiments

Recommend

About Joyk

迁移学习（JDDA）《Joint domain alignment and discriminative feature learning fo...