漫谈概率论与信息论中的不等式
source link: https://allenwind.github.io/blog/6631/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
本文证明常用的概率或信息论相关的不等式,会持续更新~
k-σσ Rule
对于随机变量XX,如果满足正态分布N(μ,σ2)N(μ,σ2),那么有
Pr(μ−1σ≤X≤μ+1σ)≈68.27%Pr(μ−2σ≤X≤μ+2σ)≈95.45%Pr(μ−3σ≤X≤μ+3σ)≈99.73%Pr(μ−1σ≤X≤μ+1σ)≈68.27%Pr(μ−2σ≤X≤μ+2σ)≈95.45%Pr(μ−3σ≤X≤μ+3σ)≈99.73%它的证明使用累积分布函数即可,如对于2σ2σ区间来说,
Pr(μ−2σ≤X≤μ+2σ)=Pr(−2≤X−μσ≤2)=Φ(2)−Φ(−2)≈0.9772−(1−0.9772)≈95.45%Pr(μ−2σ≤X≤μ+2σ)=Pr(−2≤X−μσ≤2)=Φ(2)−Φ(−2)≈0.9772−(1−0.9772)≈95.45% Φ(x)=1√2π∫x−∞e−t2/2dtΦ(x)=12π∫−∞xe−t2/2dt这个不等式可以用于异常处理,例如数据服从正态分布,或者通过一定的处理后服从正态分布,那么数据的取值落到区间[μ−3σ,μ+3σ][μ−3σ,μ+3σ]外的概率为1−99.73%1−99.73%,是极小概率,可以认为是异常值。
马尔可夫不等式
假设非负随机变量XX有概率密度函数 f(x)f(x)定义在ΩΩ上,根据连续概率分布的均值定义,有,
E[x]=∫Ωxf(x)dx=∫Uxf(x)dx+∫Ω−Uxf(x)dx≥∫Uxf(x)dx≥∫Uαf(x)dx=αP(x≥α)E[x]=∫Ωxf(x)dx=∫Uxf(x)dx+∫Ω−Uxf(x)dx≥∫Uxf(x)dx≥∫Uαf(x)dx=αP(x≥α)这里U=[α,∞),Ω=[0,α)U=[α,∞),Ω=[0,α)有特例。
P(X⩾a)⩽E[X]aP(X⩾a)⩽E[X]a
这是一个很强的定理,不需要假设 f(x)f(x) 是具体的分布的概率密度函数。取E[X]=μ,α=5μE[X]=μ,α=5μ,有
P(X≥5μ)≤15P(X≥5μ)≤15换成一个具体的语境来说是,不超过五分之一的人数收入超过平均水平的五倍。
不过马尔可夫不等式要求随机变量非负,这对于很多概率分布来说并不满足,如正态分布。那怎么办呢?一种技巧就是引入绝对值,这是一会提到的切比雪夫不等式的处理技巧,另外一种技巧是引入指数变换,因为指数变换总是非负的。以上要求x≥α>0x≥α>0,那么任给λ>0λ>0有,
eλx≥eλα>0eλx≥eλα>0代入到马尔可夫不等式中,有
P(x⩾a)=P(eλx⩾eλa)≤e−λaE[eλx]=minλe−λaE[eλx]P(x⩾a)=P(eλx⩾eλa)≤e−λaE[eλx]=minλe−λaE[eλx]最后一部分是因为理论上只要λ>0λ>0即可,因此为了获得更高的近似估计精度,不等式右端应该取最小值。
马尔可夫不等式可以用来推导切比雪夫不等式。
切比雪夫不等式
对于随机变量XX,有均值和方差分别为μ,σ2μ,σ2,切比雪夫不等式为,
P(|X−μ|≥kσ)≤1k2P(|X−μ|≥kσ)≤1k2另外一种相似的形式,
P(|X−μ|≥ξ)≤σ2ξ2P(|X−μ|≥ξ)≤σ2ξ2 P(|X−μ|≥kσ)=E(I|X−μ|≥kσ)=E(I(x−μkσ)2≥1)≤E((X−μkσ)2)=1k2E((X−μ)2)σ2=1k2P(|X−μ|≥kσ)=E(I|X−μ|≥kσ)=E(I(x−μkσ)2≥1)≤E((X−μkσ)2)=1k2E((X−μ)2)σ2=1k2这里II值指示函数。
如果只考虑单边情况,有更一般化的形式,称为Cantelli’s inequality,
P(X−E[X]≥λ)=⎧⎪⎨⎪⎩≤σ2σ2+λ2if λ>0,≥1−σ2σ2+λ2if λ<0.P(X−E[X]≥λ)={≤σ2σ2+λ2if λ>0,≥1−σ2σ2+λ2if λ<0.Gibbs 不等式
Gibbs 不等式,
DKL(q(z)|p(z|x))≥0DKL(q(z)|p(z|x))≥0容易证明,
DKL(q(z)|p(z|x))=∑z∈Zq(z)logq(z)p(z|x)=−∑z∈Zq(z)logp(z|x)q(z)⩾log∑z∈Zq(z)p(z|x)q(z)=log∑z∈Zp(z|x)=0DKL(q(z)|p(z|x))=∑z∈Zq(z)logq(z)p(z|x)=−∑z∈Zq(z)logp(z|x)q(z)⩾log∑z∈Zq(z)p(z|x)q(z)=log∑z∈Zp(z|x)=0这不就是 KL 散度大于等于 0 的证明!
Jensen 不等式
凸函数有一个直观的几何性质,即凸函数两点间的割线在该区间函数上方,可以用数学表示,
tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2),0≤t≤1tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2),0≤t≤1这是实函数版本。其概率论版本如下,
φ(E(X))≤E(φ(X))φ(E(X))≤E(φ(X))基于 Jensen 不等式还能导出很多有趣的不等式。EM算法的推导也涉及 Jensen 不等式。
Hoeffding 不等式
Hoeffding 不等式可以参考资料Hoeffding’s inequality。
P(H(x)≠f(x))=[T/2]∑i=0(Tk)(1−ε)kεT−k⩽exp(−12T(1−2ε)2)P(H(x)≠f(x))=∑i=0[T/2](Tk)(1−ε)kεT−k⩽exp(−12T(1−2ε)2)负熵不等式
负熵不等式,
H(λp1+(1−λ)p2)≥λH(p1)+(1−λ)H(p2)H(λp1+(1−λ)p2)≥λH(p1)+(1−λ)H(p2)考虑到熵H(x)H(x)的凹性,使用 Jensen 不等式容易证得。
有 Weak law,
limn→∞P(∣∣¯¯¯¯¯Xn−μ∣∣>ε)=0limn→∞P(|X¯n−μ|>ε)=0使用切比雪夫不等式易得,
Sn=X1+⋯+XnSn=X1+⋯+XnP(∣∣∣Snn−μ∣∣∣⩾r)⩽Var[Sn/n]ε2P(|Snn−μ|⩾r)⩽Var[Sn/n]ε2另外,Strong law 如下,
P(limn→∞¯¯¯¯¯Xn=μ)=1P(limn→∞X¯n=μ)=1数据处理不等式
设有马尔可夫链,
p(x,y,z)=p(x)p(y|x)p(z|y)p(x,y,z)=p(x)p(y|x)p(z|y)根据信息论,
I(X;Y)⩾I(X;Z)I(X;Y)⩾I(X;Z)该不等式称为数据处理不等式。
在理论上说明,机器学习或深度学习任务中,data pipeline对信息的损失只增不减,这启发我们不要对数据过度处理。这正好印证匈牙利数学家科尼利厄斯·兰佐斯的一句话:任何数学技巧都不能弥补信息的缺失。
[1] https://en.wikipedia.org/wiki/Fano%27s_inequality
[2] https://en.wikipedia.org/wiki/Chernoff_bound
[4]《信息论基础》
[5] https://en.wikipedia.org/wiki/Jensen%27s_inequality
转载请包括本文地址:https://allenwind.github.io/blog/6631
更多文章请参考:https://allenwind.github.io/blog/archives/
Recommend
-
28
-
51
点击上方“ 大数据与人工智能 ”,“星标或置顶公众号” 第一时间获取好内容
-
38
本文系统性总结了学习机器学习所需的概率论和信息论基础知识。 通过使用概率论,可以计算事件$Y$在事件$X$发生时的概率,这是很多机器学习的算法的构建模型的基础,比如建模$Y=f(X)$。通过使用信息论,可以描述随机事件的信息量也...
-
8
[ML Notes] 拉格朗日函数:不等式约束 Author: nex3z 2021-03-14 Contents [
-
2
Hoeffding 不等式(霍夫丁不等式)简介 发表于 2021-04-23 09:04:00...
-
6
柯西不等式的若干证明方法 发表于 2021-03-23 分类于
-
9
授人于鱼 不如授人以渔作为一个运筹学数学规划(Math Programming)领域的博士该问题属于数学规划问题答主可能需要先了解数学建模和算法设计的区别一、数学规划模型的通用解法我研究一个问题通常的步骤是:建...
-
1
参考 肖然的博客 四边形不等式 有一个双变量函数 f(x,y)f(x,y)f(x,y),如果对于 ∀a≤b≤c≤d\forall a\le b\le c\le d∀a≤b≤c≤...
-
2
四边形不等式优化 区间类(2D1D)动态规划中的应用¶ 在区间类动态规划(如石子合并问题)中,我们经常遇到以下形式的 2D...
-
2
揭秘 2022 诺贝尔物理学奖:量子纠缠与贝尔不等式
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK