8

MLE和MAP的关系之L1与L2正则化项

 2 years ago
source link: https://jozeelin.github.io/2019/09/16/mle-map-l1-l2/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

MLE和MAP的关系之L1与L2正则化项

发表于 2019-09-16

|

更新于: 2019-09-16

| 分类于 机器学习

| 0 Comments

| 阅读量: 次

L1和L2可以从两个角度进行推导:

  1. 带约束条件的优化分解(拉格朗日乘子法)
  2. 贝叶斯学派:最大后验概率

基于约束条件的最优化

令目标函数为:

minwJ(w;X,y)

为了降低模型的复杂度,即减少模型的参数个数,我们可以通过为目标函数增加约束条件,得:

minwJ(w;X,y) ‖w‖0≤C

约束条件为,让w向量中的一些元素为0或者限制w中非零元素的个数小于C。‖w‖0表示L0范数,表示的是向量w中非零元素的个数,让非零元素的个数小于某一个C,就能有效的控制模型中的非零元素的个数。

式(1-2)为有约束优化问题,而且是NP hard问题,因此对它进行“松弛”。即不再严格要求w中的某些元素为0,而是使他尽可能的接近0,所以这里使用L1L2范数来代替L0范数,即:

minwJ(w;X,y) ‖w‖1≤C minwJ(w;X,y) ‖w‖2≤C

利用拉格朗日乘子法求解:

L(w,α)=J(w;X,y)+α(‖w‖1−C)L(w,α)=J(w;X,y)+α(‖w‖22−C)

其中,α是拉格朗日系数,α>0,假设α的最优解为α∗,对拉格朗日函数求最小化等价于:

minwJ(w;X,y)+α∗‖w‖1minwJ(w;X,y)+α∗‖w‖22

L1正则化 ⟺ 在原目标函数中增加约束条件‖w‖1≤C

L2正则化⟺ 在原目标函数中增加约束条件‖w‖22≤C

基于最大后验概率估计

无监督模型

假设观测到的数据样本点为X1,X2,…,XN,它们都是独立同分布的,服从概率分布P(X),那么似然函数为:

L=N∏i=1P(Xi)

假设概率分布P(X)的参数θ未知,那么可以通过最大化似然函数来估计参数θ。即

θ=argmaxθL(θ)=argmaxθN∏i=1Pθ(Xi)

对应的对数似然函数为:

θ=argmaxθN∑i=1logPθ(Xi)

等式右边乘以1/N,相当于计算logPθ(Xi)关于训练数据经验分布ˆPdata的期望:

θ=argmaxθN∑i=11NlogPθ(Xi)=argmaxθEˆPdata[logPθ(X)]

有监督模型

对于生成模型来说,假设数据样本点为(X1,Y1),(X2,Y2),…,(XN,YN),那么根据式(2-4),得 :

θ=argmaxθEˆPdata[logPθ(X,Y)]

对于判别模型来说,我们通常要学习的是P(Y|X)而不是P(X,Y),它对应的条件最大似然估计为:

θ=argmaxθPθ(Y|X)

假设样本是独立同分布的,所以式(2-6)可写成:

θ=argmaxθ∑X,YlogPθ(Y|X)=argmaxθN∑i=1logPθ(yi|xi)

假设,条件概率分布P(Y|X)服从高斯分布,即:

Pθ(yi|xi)∼N(θ⊤xi,σ2)

那么式(2-7)对应的条件对数似然函数即可写成:

l(θ)=N∑i=1logPθ(yi|xi)=N∑i=1log[1√2πσexp(−(yi−θ⊤xi)22σ2)]=−mlogσ−m2log(2π)−m∑i=1(yi−θ⊤xi)22σ2=−12σ2m∑i=1(yi−θ⊤xi)2+C

C为不包含θ的常数项,所以根据式(2-8),目标函数为负的对数似然函数,即:

L(θ;X,y)=−(−12σ2∑i(yi−θ⊤xi)2)=12σ2∑i(yi−θ⊤xi)2

在最大后验概率估计中,我们将参数θ 看作随机变量, 参数θ的概率分布为:

P(θ|X,y)=P(θ,X,y)P(X,y)=P(X,y|θ)P(θ)P(X,y)∝P(y|X,θ)P(θ)

同样取对数:

MAP=log[P(y|X,θ)P(θ)]=logP(y|X,θ)+logP(θ)

可以看到,后验概率分布为似然函数加上logP(θ),P(θ)的意义是对参数θ的概率分布的先验假设。在收集到训练样本(X,y)后,则可根据θ在(X,y)下的后验概率对θ进行修正,从而做出对θ更好的估计。

假设θj的先验分布服从均值为0的高斯分布,即

θj∼N(0,σ2) logP(θ)=log∏jP(θj)=log∏j[1√2πσexp(−(θj−0)22σ2)]=−12σ2∑jθ2j+C

可以看到,在高斯分布下,logP(θ) 相当于在目标函数中增加L2正则项。−12σ2为正则化系数。

假设θj服从均值为0,参数为a的拉普拉斯分布,即:

P(θj)=1√2aexp(−|θj|a) logP(θ)=log∏j1√2aexp(−|θj|a)=−1a∑j|θj|+C

可以看到,在拉普拉斯分布下log P(θ)的效果等价于在目标函数中增加L1正则项。−1a为正则化系数。

L1正则化可通过假设权重θ的先验分布为拉普拉斯分布,由最大后验概率估计导出。

L2正则化可通过假设权重θ的先验分布为高斯分布,由最大后验概率估计导出。

  • 《深度学习》

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK