漫谈概率论与信息论中的不等式

本文证明常用的概率或信息论相关的不等式，会持续更新~

k-σσ Rule

对于随机变量XX，如果满足正态分布N(μ,σ2)N(μ,σ2)，那么有

Pr(μ−1σ≤X≤μ+1σ)≈68.27%Pr(μ−2σ≤X≤μ+2σ)≈95.45%Pr(μ−3σ≤X≤μ+3σ)≈99.73%Pr(μ−1σ≤X≤μ+1σ)≈68.27%Pr(μ−2σ≤X≤μ+2σ)≈95.45%Pr(μ−3σ≤X≤μ+3σ)≈99.73%

它的证明使用累积分布函数即可，如对于2σ2σ区间来说，

Pr(μ−2σ≤X≤μ+2σ)=Pr(−2≤X−μσ≤2)=Φ(2)−Φ(−2)≈0.9772−(1−0.9772)≈95.45%Pr(μ−2σ≤X≤μ+2σ)=Pr(−2≤X−μσ≤2)=Φ(2)−Φ(−2)≈0.9772−(1−0.9772)≈95.45% Φ(x)=1√2π∫x−∞e−t2/2dtΦ(x)=12π∫−∞xe−t2/2dt

这个不等式可以用于异常处理，例如数据服从正态分布，或者通过一定的处理后服从正态分布，那么数据的取值落到区间[μ−3σ,μ+3σ][μ−3σ,μ+3σ]外的概率为1−99.73%1−99.73%，是极小概率，可以认为是异常值。

马尔可夫不等式

假设非负随机变量XX有概率密度函数 f(x)f(x)定义在ΩΩ上，根据连续概率分布的均值定义，有，

E[x]=∫Ωxf(x)dx=∫Uxf(x)dx+∫Ω−Uxf(x)dx≥∫Uxf(x)dx≥∫Uαf(x)dx=αP(x≥α)E[x]=∫Ωxf(x)dx=∫Uxf(x)dx+∫Ω−Uxf(x)dx≥∫Uxf(x)dx≥∫Uαf(x)dx=αP(x≥α)

这里U=[α,∞),Ω=[0,α)U=[α,∞),Ω=[0,α)有特例。

P(X⩾a)⩽E[X]aP(X⩾a)⩽E[X]a

这是一个很强的定理，不需要假设 f(x)f(x) 是具体的分布的概率密度函数。取E[X]=μ,α=5μE[X]=μ,α=5μ，有

P(X≥5μ)≤15P(X≥5μ)≤15

换成一个具体的语境来说是，不超过五分之一的人数收入超过平均水平的五倍。

不过马尔可夫不等式要求随机变量非负，这对于很多概率分布来说并不满足，如正态分布。那怎么办呢？一种技巧就是引入绝对值，这是一会提到的切比雪夫不等式的处理技巧，另外一种技巧是引入指数变换，因为指数变换总是非负的。以上要求x≥α>0x≥α>0，那么任给λ>0λ>0有，

eλx≥eλα>0eλx≥eλα>0

代入到马尔可夫不等式中，有

P(x⩾a)=P(eλx⩾eλa)≤e−λaE[eλx]=minλe−λaE[eλx]P(x⩾a)=P(eλx⩾eλa)≤e−λaE[eλx]=minλe−λaE[eλx]

最后一部分是因为理论上只要λ>0λ>0即可，因此为了获得更高的近似估计精度，不等式右端应该取最小值。

马尔可夫不等式可以用来推导切比雪夫不等式。

切比雪夫不等式

对于随机变量XX，有均值和方差分别为μ,σ2μ,σ2，切比雪夫不等式为，

P(|X−μ|≥kσ)≤1k2P⁡(|X−μ|≥kσ)≤1k2

另外一种相似的形式，

P(|X−μ|≥ξ)≤σ2ξ2P(|X−μ|≥ξ)≤σ2ξ2 P(|X−μ|≥kσ)=E(I|X−μ|≥kσ)=E(I(x−μkσ)2≥1)≤E((X−μkσ)2)=1k2E((X−μ)2)σ2=1k2P⁡(|X−μ|≥kσ)=E(I|X−μ|≥kσ)=E(I(x−μkσ)2≥1)≤E((X−μkσ)2)=1k2E((X−μ)2)σ2=1k2

这里II值指示函数。

如果只考虑单边情况，有更一般化的形式，称为Cantelli’s inequality，

P(X−E[X]≥λ)=⎧⎪⎨⎪⎩≤σ2σ2+λ2if λ>0,≥1−σ2σ2+λ2if λ<0.P(X−E[X]≥λ)={≤σ2σ2+λ2if λ>0,≥1−σ2σ2+λ2if λ<0.

Gibbs 不等式

Gibbs 不等式，

DKL(q(z)|p(z|x))≥0DKL(q(z)|p(z|x))≥0

容易证明，

这不就是 KL 散度大于等于 0 的证明！

Jensen 不等式

凸函数有一个直观的几何性质，即凸函数两点间的割线在该区间函数上方，可以用数学表示，

tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2),0≤t≤1tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2),0≤t≤1

这是实函数版本。其概率论版本如下，

φ(E(X))≤E(φ(X))φ(E(X))≤E(φ(X))

基于 Jensen 不等式还能导出很多有趣的不等式。EM算法的推导也涉及 Jensen 不等式。

Hoeffding 不等式

Hoeffding 不等式可以参考资料Hoeffding’s inequality。

P(H(x)≠f(x))=[T/2]∑i=0(Tk)(1−ε)kεT−k⩽exp(−12T(1−2ε)2)P(H(x)≠f(x))=∑i=0[T/2](Tk)(1−ε)kεT−k⩽exp⁡(−12T(1−2ε)2)

负熵不等式

负熵不等式，

H(λp1+(1−λ)p2)≥λH(p1)+(1−λ)H(p2)H(λp1+(1−λ)p2)≥λH(p1)+(1−λ)H(p2)

考虑到熵H(x)H(x)的凹性，使用 Jensen 不等式容易证得。

有 Weak law，

limn→∞P(∣∣¯¯¯¯¯Xn−μ∣∣>ε)=0limn→∞P⁡(|X¯n−μ|>ε)=0

使用切比雪夫不等式易得，

Sn=X1+⋯+XnSn=X1+⋯+XnP(∣∣∣Snn−μ∣∣∣⩾r)⩽Var[Sn/n]ε2P(|Snn−μ|⩾r)⩽Var[Sn/n]ε2

另外，Strong law 如下，

P(limn→∞¯¯¯¯¯Xn=μ)=1P⁡(limn→∞X¯n=μ)=1

数据处理不等式

设有马尔可夫链，

p(x,y,z)=p(x)p(y|x)p(z|y)p(x,y,z)=p(x)p(y|x)p(z|y)

根据信息论，

I(X;Y)⩾I(X;Z)I(X;Y)⩾I(X;Z)

该不等式称为数据处理不等式。

在理论上说明，机器学习或深度学习任务中，data pipeline对信息的损失只增不减，这启发我们不要对数据过度处理。这正好印证匈牙利数学家科尼利厄斯·兰佐斯的一句话：任何数学技巧都不能弥补信息的缺失。

[1] https://en.wikipedia.org/wiki/Fano%27s_inequality

[2] https://en.wikipedia.org/wiki/Chernoff_bound

[3] Hoeffding’s inequality

[4]《信息论基础》

[5] https://en.wikipedia.org/wiki/Jensen%27s_inequality

转载请包括本文地址：https://allenwind.github.io/blog/6631
更多文章请参考：https://allenwind.github.io/blog/archives/

k-σσ Rule

马尔可夫不等式

切比雪夫不等式

Gibbs 不等式

Jensen 不等式

Hoeffding 不等式

负熵不等式

数据处理不等式

Recommend

1.5 小科普er~光是波还是粒子?电子是波还是粒子? 在物理学史上最强‘猪队友’- Poisson...

[译] 机器学习中常用的几个概率不等式及证明

机器学习相关的概率论和信息论基础知识

[ML Notes] 拉格朗日函数：不等式约束

Hoeffding 不等式（霍夫丁不等式）简介

柯西不等式的若干证明方法

如何求解如下的带L1正则项和不等式约束集的优化问题？

四边形不等式优化学习笔记

四边形不等式优化

揭秘 2022 诺贝尔物理学奖：量子纠缠与贝尔不等式

About Joyk