NLP、深度学习、机器学习、Python、Go

最大熵原理、最大熵约束与概率分布

本文讲最大熵原理，并从最大熵约束角度导出常见概率分布。

在处理未知概率分布时，我们常常假设满足观察条件下熵为最大的概率分布，该分布称为最大熵分布。

最大熵原理

最大熵原理就是说在未知的事情面前，我们选择不确定性最大的那一个。这样做意味着我们不引入任何假设，承认自己除了已经观察到的信息外，对其事情无知。简而言之：自知无知！

反过来想，如果我们不承认无知，而是对其引入假设（假设不是观察信息），如果正确，那对我们建模当然有用，如果错误，只会偏离正确结果更远，那么我们如何保证我们的假设是正确的。这样一来，引入假设反而有风险，既然如此，还不如不做假设，自知无知更好！然后，满足这样条件的分布还是有很多，最大熵原理则认为熵最大的分布最好，

maxp∈PH[p]=maxp∈P−∫p(x)logp(x)dxmaxp∈PH[p]=maxp∈P−∫p(x)log⁡p(x)dx

例如一颗骰子在面前，对各个点数 Ω=1,2,3,4,5,6Ω=1,2,3,4,5,6，那么每颗骰子点数出现的概率是多数呢？由于没有更多信息，这里不做任何假设，自知无知。认为每个点数等可能出现是最优的做法。于是有，

p(x)=1|Ω|=16p(x)=1|Ω|=16

有未知分布p(x)p(x)，其具体形式和参数都不知道，但是我们有了一些观察信息ri(x)ri(x)，可以使用期望来表示，

E[ri(x)]=∫Ωp(x)ri(x)dx=αiE[ri(x)]=∫Ωp(x)ri(x)dx=αi

其中，1≤i≤m1≤i≤m，这些信息是可以通过试验获得。例如通过采样估计均值，也就是r(x)=xr(x)=x，

∫Ωxp(x)dx=μ∫Ωxp(x)dx=μ

通过采样估计二价矩，也就是r(x)=x2r(x)=x2，

∫Ωx2p(x)dx=m2∫Ωx2p(x)dx=m2

或者更实际的方差，也就是r(x)=(x−μ)2r(x)=(x−μ)2，

∫Ω(x−μ)2p(x)dx=σ2∫Ω(x−μ)2p(x)dx=σ2

这些观察信息对于优化问题来说就是约束，即未知概率分布必须满足的条件。

根据最大熵原理，我们期望p(x)p(x)在满足约束下熵最大，于是有如下优化问题，

maxp∈PH[p]=−∫p(x)logp(x)dxs.t.⎧⎪⎨⎪⎩p(x)≥0∫Ωp(x)dx=1∫Ωp(x)ri(x)dx=αifor1≤i≤mmaxp∈PH[p]=−∫p(x)log⁡p(x)dxs.t.{p(x)≥0∫Ωp(x)dx=1∫Ωp(x)ri(x)dx=αifor1≤i≤m

其中ri(x)ri(x)均为矩约束条件，如一价矩（均值）、二价矩（方差）等等。该优化问题其实就是求在满足矩约束条件下，求解熵最大的概率密度函数。这并不是一个普通的数值优化问题，因为变量是未知的函数。不过在数学上有泛函分析和变分法来处理。当函数作为变量时的优化问题，可以参考有关资料（keyword：Euler-Lagrange Equation、拉格朗日泛函）。

为求解以上优化问题，构造如下泛函，

J(p)=−∫p(x)logp(x)+λ0∫p+m∑i=1λi∫priJ(p)=−∫p(x)log⁡p(x)+λ0∫p+∑i=1mλi∫pri

根据变分法，对泛函J(p)J(p)求关于pp的泛函导数，

∂J(p)∂p=−logp(x)−1+λ0+m∑i=1λiri(x)∂J(p)∂p=−log⁡p(x)−1+λ0+∑i=1mλiri(x)

另上式取零，求得p(x)p(x)，

p(x)=exp(λ0−1+m∑i=1λiri(x))p(x)=exp⁡(λ0−1+∑i=1mλiri(x))

参数λiλi可以代入到原约束中求解，

∫Ωp(x)ri(x)dx=αi∫Ωp(x)ri(x)dx=αi

考虑概率密度的归一性，以上形式可以转化为，

p(x)=1Zexp[m∑i=1λiri(x)]p(x)=1Zexp⁡[∑i=1mλiri(x)] Z=∑x∈Ωexp[m∑i=1λiri(x)]Z=∑x∈Ωexp⁡[∑i=1mλiri(x)]

常数ZZ确保∫Ωp(x)dx=1∫Ωp(x)dx=1。连续型概率与离散型概率的推导过程一致。

根据最大熵原理的思路，我们就可以导出很大常见的分布。

最大熵与正态分布

考虑未知具体形式的概率密度p(x)p(x)，假设已知方差σ2σ2与均值μμ，求解最大熵分布。已知方差和均值相当于约束分别为r1(x)=xr1(x)=x和r2(x)=(x−μ)2r2(x)=(x−μ)2。为了更好理解以上过程，这里我们不直接套用以上结论，而是沿着结论的思路再推导一遍，

该未知分布p(x)p(x)的熵有，

H[p]=−∫Ωp(x)logp(x)dxH[p]=−∫Ωp(x)log⁡p(x)dx ∫Ωr1(x)p(x)dx=μ∫Ωr2(x)p(x)dx=σ2∫Ωr1(x)p(x)dx=μ∫Ωr2(x)p(x)dx=σ2

于是有拉格朗日函数，

L(p,λ)=∫∞−∞p(x)logp(x)dx−λ1(1−∫∞−∞p(x)dx)−λ2(μ−∫∞−∞p(x)xdx)−λ3(σ2−∫∞−∞p(x)(x−μ)2dx)=λ1(∫p(x)dx−1)+λ2(E[x]−μ)+λ3(E[(x−μ)2]−σ2)+H[p]=∫[λ1p(x)+λ2p(x)x+λ3p(x)(x−μ)2−p(x)logp(x)]dx−λ1−μλ2−σ2λ3L(p,λ)=∫−∞∞p(x)log⁡p(x)dx−λ1(1−∫−∞∞p(x)dx)−λ2(μ−∫−∞∞p(x)xdx)−λ3(σ2−∫−∞∞p(x)(x−μ)2dx)=λ1(∫p(x)dx−1)+λ2(E[x]−μ)+λ3(E[(x−μ)2]−σ2)+H[p]=∫[λ1p(x)+λ2p(x)x+λ3p(x)(x−μ)2−p(x)log⁡p(x)]dx−λ1−μλ2−σ2λ3

另上式等于零，解得形式，

p(x)=exp(λ1+λ2x+λ3(x−μ)2−1)p(x)=exp⁡(λ1+λ2x+λ3(x−μ)2−1)

根据概率密度的归一性，代入到方差σ2σ2与均值μμ的约束中，解得，

p(x,μ,σ)=1√2πσ2e−(x−μ)22σ2p(x,μ,σ)=12πσ2e−(x−μ)22σ2

也就是说，在已知方差和均值情况下，熵最大的分布为正态分布。此时，我们知道正态分布的熵为，

H[N(μ,σ2)]=12log(2πeσ2)H[N(μ,σ2)]=12log⁡(2πeσ2)

最大熵与均匀分布

在没有矩约束即ri(x)=0ri(x)=0的情况下，概率密度的形式，

p(x)=Cexp[m∑i=1λiri(x)]=Cp(x)=Cexp⁡[∑i=1mλiri(x)]=C

考虑归一性有，

p(x)=1|Ω|p(x)=1|Ω|

例如骰子，Ω=1,2,3,4,5,6Ω=1,2,3,4,5,6，让熵最大的分布为均匀分布，此时，

p(x)=16p(x)=16

于是，我们就可以理解，在贝叶斯统计中，在什么都不知道的情况下，选择均匀分布作为先验分布的原因了。假如我们在大街上捡到一枚硬币，为让熵最大，我们承认自己无知（不知道它是不是普通硬币还是做过手脚的硬币），认为这枚硬币正反两面的概率都一样。

最大熵与指数分布

指数分布是考虑约束，

r1(x)=E(x)=1λr1(x)=E⁡(x)=1λ

其实x∈[0,+∞)x∈[0,+∞)。由于只有约束r(x)=xr(x)=x，那么代入最大熵分布有，

p(x)=1Zexp(−λx)p(x)=1Zexp⁡(−λx)

处理好归一问题后，有，

p(x)=1λexp(−λx)p(x)=1λexp⁡(−λx)

最大熵与拉普拉斯分布

考虑x∈(−∞,+∞)x∈(−∞,+∞)，且满足约束条件，

r1(x)=E(|x−μ|)=br1(x)=E⁡(|x−μ|)=b

代入最大熵分布，且归一化分布，得，

f(x)=12bexp(−|x−μ|b)f(x)=12bexp⁡(−|x−μ|b)

这些求解本质上是代入后求积分，根据归一化特点求出未知参数λiλi。

从信息论角度看，某个具体的概率分布是给定取值约束（最大熵约束）条件下，熵最大的解。总结有下表，

概率分布最大熵约束

均匀分布随机变量的均值方差未知

指数分布已知随机变量的均值

拉普拉斯分布已知随机变量的绝对值的均值（平均绝对误差）

正态分布已知随机变量的均值和方差

转载请包括本文地址：https://allenwind.github.io/blog/6708
更多文章请参考：https://allenwind.github.io/blog/archives/

最大熵原理、最大熵约束与概率分布

最大熵原理、最大熵约束与概率分布

最大熵原理

最大熵与正态分布

最大熵与均匀分布

最大熵与指数分布

最大熵与拉普拉斯分布

Recommend

浅谈Python的property装饰器

Object Relational Graph with Teacher Recommended Learning for Video Captioning论...

外媒评苹果发布会：新iPhone令人失望，等了2年改进太小

max函数光滑逼近：一种与softmax相关的形式

售出-购进平价理论

Bassinet vs. Crib For Newborn - Which One To Choose? - Comfy Bummy

认知算法小结

JenI's Blog

【两会】网络直播监管引发热议对头部主播处罚将起到警示作用

Redis安装与基础配置

About Joyk