6

最大熵原理、最大熵约束与概率分布

 2 years ago
source link: https://allenwind.github.io/blog/6708/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
Mr.Feng Blog

NLP、深度学习、机器学习、Python、Go

最大熵原理、最大熵约束与概率分布

本文讲最大熵原理,并从最大熵约束角度导出常见概率分布。

在处理未知概率分布时,我们常常假设满足观察条件下熵为最大的概率分布,该分布称为最大熵分布。

最大熵原理

最大熵原理就是说在未知的事情面前,我们选择不确定性最大的那一个。这样做意味着我们不引入任何假设,承认自己除了已经观察到的信息外,对其事情无知。简而言之:自知无知!

反过来想,如果我们不承认无知,而是对其引入假设(假设不是观察信息),如果正确,那对我们建模当然有用,如果错误,只会偏离正确结果更远,那么我们如何保证我们的假设是正确的。这样一来,引入假设反而有风险,既然如此,还不如不做假设,自知无知更好!然后,满足这样条件的分布还是有很多,最大熵原理则认为熵最大的分布最好,

maxp∈PH[p]=maxp∈P−∫p(x)logp(x)dxmaxp∈PH[p]=maxp∈P−∫p(x)log⁡p(x)dx

例如一颗骰子在面前,对各个点数 Ω=1,2,3,4,5,6Ω=1,2,3,4,5,6,那么每颗骰子点数出现的概率是多数呢?由于没有更多信息,这里不做任何假设,自知无知。认为每个点数等可能出现是最优的做法。于是有,

p(x)=1|Ω|=16p(x)=1|Ω|=16

有未知分布p(x)p(x)​​,其具体形式和参数都不知道,但是我们有了一些观察信息ri(x)ri(x),可以使用期望来表示,

E[ri(x)]=∫Ωp(x)ri(x)dx=αiE[ri(x)]=∫Ωp(x)ri(x)dx=αi

其中,1≤i≤m1≤i≤m​,这些信息是可以通过试验获得。例如通过采样估计均值,也就是r(x)=xr(x)=x,

∫Ωxp(x)dx=μ∫Ωxp(x)dx=μ

通过采样估计二价矩,也就是r(x)=x2r(x)=x2,

∫Ωx2p(x)dx=m2∫Ωx2p(x)dx=m2

或者更实际的方差,也就是r(x)=(x−μ)2r(x)=(x−μ)2,

∫Ω(x−μ)2p(x)dx=σ2∫Ω(x−μ)2p(x)dx=σ2

这些观察信息对于优化问题来说就是约束,即未知概率分布必须满足的条件。

根据最大熵原理,我们期望p(x)p(x)在满足约束下熵最大,于是有如下优化问题,

maxp∈PH[p]=−∫p(x)logp(x)dxs.t.⎧⎪⎨⎪⎩p(x)≥0∫Ωp(x)dx=1∫Ωp(x)ri(x)dx=αifor1≤i≤mmaxp∈PH[p]=−∫p(x)log⁡p(x)dxs.t.{p(x)≥0∫Ωp(x)dx=1∫Ωp(x)ri(x)dx=αifor1≤i≤m

其中ri(x)ri(x)均为矩约束条件,如一价矩(均值)、二价矩(方差)等等。该优化问题其实就是求在满足矩约束条件下,求解熵最大的概率密度函数。这并不是一个普通的数值优化问题,因为变量是未知的函数。不过在数学上有泛函分析和变分法来处理。当函数作为变量时的优化问题,可以参考有关资料(keyword:Euler-Lagrange Equation、拉格朗日泛函)。

为求解以上优化问题,构造如下泛函,

J(p)=−∫p(x)logp(x)+λ0∫p+m∑i=1λi∫priJ(p)=−∫p(x)log⁡p(x)+λ0∫p+∑i=1mλi∫pri

根据变分法,对泛函J(p)J(p)求关于pp的泛函导数,

∂J(p)∂p=−logp(x)−1+λ0+m∑i=1λiri(x)∂J(p)∂p=−log⁡p(x)−1+λ0+∑i=1mλiri(x)

另上式取零,求得p(x)p(x),

p(x)=exp(λ0−1+m∑i=1λiri(x))p(x)=exp⁡(λ0−1+∑i=1mλiri(x))

参数λiλi可以代入到原约束中求解,

∫Ωp(x)ri(x)dx=αi∫Ωp(x)ri(x)dx=αi

考虑概率密度的归一性,以上形式可以转化为,

p(x)=1Zexp[m∑i=1λiri(x)]p(x)=1Zexp⁡[∑i=1mλiri(x)] Z=∑x∈Ωexp[m∑i=1λiri(x)]Z=∑x∈Ωexp⁡[∑i=1mλiri(x)]

常数ZZ确保∫Ωp(x)dx=1∫Ωp(x)dx=1。连续型概率与离散型概率的推导过程一致。

根据最大熵原理的思路,我们就可以导出很大常见的分布。

最大熵与正态分布

考虑未知具体形式的概率密度p(x)p(x)​,假设已知方差σ2σ2​与均值μμ​,求解最大熵分布。已知方差和均值相当于约束分别为r1(x)=xr1(x)=x​和r2(x)=(x−μ)2r2(x)=(x−μ)2​。​为了更好理解以上过程,这里我们不直接套用以上结论,而是沿着结论的思路再推导一遍,

该未知分布p(x)p(x)的熵有,

H[p]=−∫Ωp(x)logp(x)dxH[p]=−∫Ωp(x)log⁡p(x)dx ∫Ωr1(x)p(x)dx=μ∫Ωr2(x)p(x)dx=σ2∫Ωr1(x)p(x)dx=μ∫Ωr2(x)p(x)dx=σ2

于是有拉格朗日函数,

L(p,λ)=∫∞−∞p(x)logp(x)dx−λ1(1−∫∞−∞p(x)dx)−λ2(μ−∫∞−∞p(x)xdx)−λ3(σ2−∫∞−∞p(x)(x−μ)2dx)=λ1(∫p(x)dx−1)+λ2(E[x]−μ)+λ3(E[(x−μ)2]−σ2)+H[p]=∫[λ1p(x)+λ2p(x)x+λ3p(x)(x−μ)2−p(x)logp(x)]dx−λ1−μλ2−σ2λ3L(p,λ)=∫−∞∞p(x)log⁡p(x)dx−λ1(1−∫−∞∞p(x)dx)−λ2(μ−∫−∞∞p(x)xdx)−λ3(σ2−∫−∞∞p(x)(x−μ)2dx)=λ1(∫p(x)dx−1)+λ2(E[x]−μ)+λ3(E[(x−μ)2]−σ2)+H[p]=∫[λ1p(x)+λ2p(x)x+λ3p(x)(x−μ)2−p(x)log⁡p(x)]dx−λ1−μλ2−σ2λ3

另上式等于零,解得形式,

p(x)=exp(λ1+λ2x+λ3(x−μ)2−1)p(x)=exp⁡(λ1+λ2x+λ3(x−μ)2−1)

根据概率密度的归一性,代入到方差σ2σ2​与均值μμ​的约束中,解得,

p(x,μ,σ)=1√2πσ2e−(x−μ)22σ2p(x,μ,σ)=12πσ2e−(x−μ)22σ2

也就是说,在已知方差和均值情况下,熵最大的分布为正态分布。此时,我们知道正态分布的熵为,

H[N(μ,σ2)]=12log(2πeσ2)H[N(μ,σ2)]=12log⁡(2πeσ2)

最大熵与均匀分布

在没有矩约束即ri(x)=0ri(x)=0的情况下,概率密度的形式,

p(x)=Cexp[m∑i=1λiri(x)]=Cp(x)=Cexp⁡[∑i=1mλiri(x)]=C

考虑归一性有,

p(x)=1|Ω|p(x)=1|Ω|

例如骰子,Ω=1,2,3,4,5,6Ω=1,2,3,4,5,6,让熵最大的分布为均匀分布,此时,

p(x)=16p(x)=16

于是,我们就可以理解,在贝叶斯统计中,在什么都不知道的情况下,选择均匀分布作为先验分布的原因了。假如我们在大街上捡到一枚硬币,为让熵最大,我们承认自己无知(不知道它是不是普通硬币还是做过手脚的硬币),认为这枚硬币正反两面的概率都一样。

最大熵与指数分布

指数分布是考虑约束,

r1(x)=E(x)=1λr1(x)=E⁡(x)=1λ

其实x∈[0,+∞)x∈[0,+∞)。由于只有约束r(x)=xr(x)=x​,那么代入最大熵分布有,

p(x)=1Zexp(−λx)p(x)=1Zexp⁡(−λx)

处理好归一问题后,有,

p(x)=1λexp(−λx)p(x)=1λexp⁡(−λx)

最大熵与拉普拉斯分布

考虑x∈(−∞,+∞)x∈(−∞,+∞),且满足约束条件,

r1(x)=E(|x−μ|)=br1(x)=E⁡(|x−μ|)=b

代入最大熵分布,且归一化分布,得,

f(x)=12bexp(−|x−μ|b)f(x)=12bexp⁡(−|x−μ|b)

这些求解本质上是代入后求积分,根据归一化特点求出未知参数λiλi。

从信息论角度看,某个具体的概率分布是给定取值约束(最大熵约束)条件下,熵最大的解。总结有下表,

概率分布 最大熵约束

均匀分布 随机变量的均值方差未知

指数分布 已知随机变量的均值

拉普拉斯分布 已知随机变量的绝对值的均值(平均绝对误差)

正态分布 已知随机变量的均值和方差

转载请包括本文地址:https://allenwind.github.io/blog/6708
更多文章请参考:https://allenwind.github.io/blog/archives/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK